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译 者 序 
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关于 本 书 


当今 社会 ， 社 交 软 件 、 博 客 、 购 物 网 站 等 丰富 多 彩 的 网 络 服务 充 不 着 我 们 
的 生活 ，E-Mail 和 聊天 工具 更 是 大 家 常用 的 交流 手段 。 可 以 说 ， 互 联网 已 
经 成 为 了 我 们 生活 中 不 可 缺少 的 一 部 分 。 笔 者 也 不 例外 ， 每 天 都 在 使 用 网 
络 。 更 确切 地 说 ， 无 论 公 事 还 是 私事 ， 儿 乎 每 天 都 沉 误 在 网 络 中 。 


然而 ， 从 笔者 的 角度 来 看 ， 与 享受 网 络 服务 的 终端 用户” 相对 应 的 就 是 服 
务 的 “提供 者 ”。 没 错 ， 笔 者 的 工作 中 是 网 络 、 服 务 着 的 搭建 和 运 东 管理 。 


10 年 前 ， 说 到 网 络 和 服务 硕 ， 第 一 反应 丈 是 这 是 价格 昂贵 的 设备 ， 应 该 不 
征 一 个 能 够 条 单 进入 的 4 页 域 。 但 是 是 近 些 年 来 ， 随 着 在 PC 机 上 运行 的 
Linux、FreeBSD 等 类 UNIX 操作 系统 的 普及 ， 以 及 硬件 价格 的 降低 、 网 络 
的 普及 ， 也 让 大 家 纷纷 在 家 中 建 起 了 服务 器 。 


这 样 的 情况 有 助 于 我 们 随时 获取 基础 设施 的 相关 信息 。 特 别 是 在 部 署 方 式 
和 Apache 守护 程序 的 配置 等 操作 方法 方面 ， 近 些 年 的 进步 可 请 惊人 。 对 基 
础 设施 的 新 手工 程 师 来 说 ， 这 真 古 个 方便 的 时 代 。 


然而 男 一 方面 ， 在 高 效 运 宫 管理 的 实现 、 服 务 的 见 余 及 可 扩展 等 技术 上 的 
信息 和 技巧 还 远 远 不 够 。 


吕 笔 者 而 言 ， 从 搭建 和 运 谊 数 侣 、 数 十 台 旋 至 数 百 台 的 服务 丹 系 统 来 说 ， 
其 中 最 大 的 困难 就 是 缺少 宛 余 和 可 扩展 方面 的 信息 。 当时 笔者 还 没有 元 余 
和 可 扩展 的 相关 知识 和 经 验 ， 完 全 不 知 该 如 何 下 手 。 而 县 想到 为 了 实现 这 
些 还 不 得 不 使 用 昂 贯 的 商用 产品 ， 连 一 些小 小 的 实验 也 没 能 淮 试 


现在 回想 起 来 ， 当 时 的 想法 是 不 对 的 。 事 实 上 ， 运 用 开源 软件 和 第 用 的 设 
备 ， 即 可 搭建 兼 有 克 余 性 和 可 扩展 性 的 系统 。 但 我 们 回 过 头 来 看 看 ， 当 时 
迟 迟 无 法 下 手 的 原因 究 况 是 什么 呢 ? 难 道 不 是 单纯 地 因为 “不 知道 有 这 个 东 
西关 不 知道 可 以 这 样 ? 吧 ? 


而 这 就 是 本 书 的 写作 动机 。 也 束 是 说 ， 本 书 的 写作 目标 践 是 为 读者 搭建 兼 
具 见 余 和 可 扩展 性 的 基础 设施 提供 启示 。 


本 书 的 内 容 是 使 用 开源 软件 的 Hatena 公司 和 Klab OR 
总 结 ， 与 实际 运作 的 系统 密 切 相关 。 这 些 信息 都 具有 实践 意义 ， 而 非 奔 
其 谈 。 系 统 是 一 个 体系 ， 是 由 各 个 要 素 相关 联 构成 的 。 和 人 
要 素 的 技术 都 进行 了 详细 的 说 明 ， 还 重点 介绍 了 各 个 反 术 妥 素 之 间 的 天 
联 。 但 是 本 书 并 不 是 一 本 技术 手册 ， 所 以 并 没有 逐步 对 安装 顺序 进行 说 

明 ， 而 且 也 不 是 说 按照 书 中 的 命令 去 运行 就 一 定 能 得 到 什么 。 


本 书记 述 的 是 笔者 在 实际 的 开发 现场 所 进行 的 思考 、 所 面临 的 问题 ， 以 及 
为 解决 问题 所 做 的 努力 和 成 果 。 硕 望 在 读者 接 下 来 设计 、 搭 建 和 运营 基础 
设施 时 ， 本 书 的 内 容 能 够 为 你 提供 参考 


作者 代表 广 漆 正 明 


本 书 概述 
本 书 由 6 章 组 成 。 
第 1 章 服务 器 及 基础 设施 搭建 入 门 …… 元 余 及 负载 分 流 的 基础 


第 2 章 优化 服务 器 及 基础 设施 的 拓扑 结构 .…… 元 余 、 负 载 分 流 、 高 性 能 
的 实现 


章 ”进一步 完善 不 间断 的 基础 设施 .…...DNS 服务 器 、 存 储 服 务 器 、 网 


1 一 3 章 的 主题 是 如 何 设计 兼 具 元 余 性 以 及 可 扩展 性 的 基础 设施 。 


每 一 章 都 是 相互 独立 的 ， 但 是 在 “从 较 小 的 系统 出 发 来 搭建 基础 设施 "这 一 
大 流程 中 ， 它 们 又 是 相互 关联 的 。 建 议 首先 通读 1 ~ 3 章 以 把 握 整 个 流 
程 ， 然 后 再 回 过 头 来 细 读 感 兴趣 的 章 帮 。 


第 4 章 性 能 优化 、 调 整 .……… Linux 单个 主机 、Apache、MySQL 
第 4 半 的 主题 是 提升 性 能 


通过 服务 器 的 负载 均衡 来 提升 整个 系统 的 性 能 。 在 这 一 过 程 中 ， 单 个 服务 
妖 的 性 能 优化 是 不 可 或 缺 的 。 第 4 革 将 针对 单个 服务 紫 的 性 能 可 能 遭遇 的 
壮 颈 ， 对 其 界定 及 优化 方法 进行 介绍 


第 5 章 高 效 运行 ..…… 确 保 服务 的 稳定 提供 
第 5 章 的 主题 是 监控 和 管理 


随 着 服务 右 数 量 的 增加 ， 运 营 成 本 也 不 断 加 大 ， 那 么 运 宫 成 本 将 会 成 为 瓶 
有 绒 ， 进 而 殉 可 能 导致 不 能 像 期 望 中 那样 扩展 基础 设施 了 “。 换 名 话说， 通过 
各 种 办 法 在 最 大 程度 上 提高 运行 效率 ， 是 搭建 具备 可 扩展 性 的 基础 设施 的 
关键。 第 5 章 将 以 笔者 号 边 的 生产 环境 为 例 ， 来 说 明 如 何 提升 设备 的 运行 


效率 。 
第 6 章 服务 后 台 .….. 自 律 的 基础 设施 、 稳 健 的 系统 


第 6 章 将 对 Hatena 公司 与 KLab 公司 的 DSAS 实际 运作 的 网 络 和 服务 器 基 
而 设施 进行 介绍 


笔者 作为 基础 设施 团队 的 领 尖 人 物 ， 除 了 一 些 技术 性 的 内 容 之 外 ， 还 加 入 
了 前 面 章 方 中 示 能 介绍 的 细 亡 、 至 今 为 止 的 发 展 历 程 ， 以 及 目 己 作为 基础 
设施 工程 师 的 动机 和 心理 等 非常 有 趣 的 内 容 ， 可 读 性 很 强 。 


章节 作者 一 览 表 及 出 处 


1.2 实现 Web 服务 器 的 元 余 .…. .DNS 轮 询 


2.1 引入 有 反 癌 代理 ..…. 


2 增设 缓存 服务 器 


2.3 MySQL 同步 


均衡 的 元 余 


..Apache 模块 


发 生 故 障 时 的 快速 


恢 


2.4 MySQL 的 Slave + 内 部 负载 均衡 器 的 灵活 应 用 示例 ? 


双 量 高 速 的 存储 服务 器 


3.1 DNS 服务 器 的 元 余 


3.2 存储 服务 器 的 元 余 ..……. 使 月 


3.3 网 络 的 元 余 .……. 驱 动 绑 定 、RSTP 


3.4 引 入 VLAN 


基于 Linux 的 单 


主机 的 负载 评 


月 DRBD 实现 镜像 


4.2 Apache 的 优化 


4.3 MySQL 的 调 优 诀 穿 ? 


5.1 服务 状态 监控 


Nagios 


中 慎 司 (Hatena) 


Ganglia 4 


Puppert 


Daemontools 


PXE、initramfs 


护 线 路 、Serial Console、IPMI 


5.7 Web 服务 器 的 8......syslog ~ syslog-ng ~ cron 、~ rotatelogs 


6.1 Hatena 网 站 的 


6.2 DSAS 的 内 容 中 慎 司 


1 《WEB+DB PRESS》 (Vol.22) 特辑 2“MySQL 配置 指导 ”、 第 2 章 “ 生 产 环 境 中 的 同步 详解 ” 


“《WEB+DB PRESS》 (Vol.38) 连载 “ 快 看 ! 这 是 高 手 的 诀窍 "可 扩展 的 Web 系统 工房 “第 1 回 : 各 
种 各 样 的 负载 均衡 ” 

3 “5 分 钟 完 成 MySQL 的 内 存 关系 调整 ! ”URL http:/dsas.blog.klab.org/archives/50860867.html 

4 《WEB+DB PRESS》 (Vol.40) 连载 “ 快 看 ! 这 是 高 手 的 诀窍” 可 扩展 的 Web 系统 工房 “第 3 回 : 监 


探 的 种 种 ” 


术语 整理 


从 网 络 到 应 用 程序 ， 本 书 内 容 涉及 范围 较 广 ， 其 中 出 现 了 较 多 的 术语 。 首 
先 将 常用 的 术语 整理 如 下 。 


AP 服务 器 (Application Server) 
应 用 服务 左 ， 即 能 返回 动态 内 容 的 服务 硕 。 


比如 Apache 十 mod_perl 运行 的 Web 服务 器 及 Tomcat 等 应 用 程序 运行 的 服 
务 器 。 


CDN (Content Delivery Network， 内 容 分 发 网 络 ) 
发 送 内 容 的 网 络 系统 。 用 于 提高 信息 发 送 的 性 能 和 实用 性 。 


以 Akamai 等 商用 服务 为 例 ， 其 结构 上 的 特点 是 : 从 散布 在 全 世界 的 缓存 服 
务 硕 中 ， 选 择 离 客 户 端 较 近 的 服务 器 来 发 送信 息 ， 据 此 实现 性 能 的 提升 。 


IPVS (IP Virtual Server，IP 虚拟 服务 器 ) 


LVS (Linux Virtual Server) 的 成 果 之 一 ， 实 现 了 负载 均衡 器 中 不 可 或 缺 的 
负载 分 流 功 能 。 


二 参考 “LVS” 


LVS (Linux Virtual Server, Linux 虚拟 服务 器 ) 


Linux 中 旨 在 搭建 具有 可 扩展 性 的 、 实 用 性 较 高 的 系统 的 项 目 。 项 目 成 果 之 
一 即 为 Linux 负载 分 流 所 设计 的 IPVS 。 


原先 为 项 目 名 ， 现 通常 作为 “基于 Linux 的 负载 均衡 器 ”的 意思 使 用 。 


URL http://www.linuxvirtualserver.org/ 
NIC (Network Interface Card， 网 络 接口 卡 ， 简 称 网 卡 ) 


原本 是 指 追 加 网 络 功 能 所 需 的 扩展 卡 。 有 时 也 作为 网 络 接口 的 总 称 使 用 ， 
不 区 分 是 扩展 卡 还 古板 载 。 


同时 也 可 称 为 LAN 卡 、 网 络 适 配 需 等 。 


Netfilter 


Linux 内 核 中 操作 网 络 数据 包 所 和 需 的 协议 框架 。 
执行 分 组 过 滤 的 iptables 以 及 实现 负载 均衡 的 IPVS 也 应 用 了 本 Netfilter 协 
议 。 


OSI 参考 模型 
用 来 描述 数据 通信 网 络 层 的 模型 ， 分 为 七 层 (Layer) 框架 。 
以 下 为 常见 的 层 。 


。 第 七 层 (应 用 层 ) : HTTP 及 SMT 等 通信 协议 
。 第 四 层 (传输 层 ) : TCP 及 UDP 

。 第 三 层 (网 络 层 ) : IP、ARP 及 ICMP 

。 第 二 层 (数据 链 路 层 ) : 以 太 网 等 


男 外 ， 像 “L2 交换 机 ”这 样 ， 有 时 也 将 “第 n 层 ” 记 为 “<Ln”。 顺 带 一 提 ，OSI 
是 Open Systems Interconnection 的 缩写 。 


VIP (Virtual IP Address， 虚 拟 IP 地 址 ) 
不 同 于 物理 性 质 的 服务 器 及 网 卡 ， 该 IP 地 址 会 被 浮动 地 分 配 某 项 服务 或 功 


能 。 

例如 对 于 负载 均衡 右 ， 接 收 客户 端 请 求 的 IP 地 址 束 称 为 VIP。 这 是 因为 该 
IP 地 址 对 HTTP 等 服务 进行 了 关联 ， 男 外 在 风 余 的 Active/Backup 架构 中 ， 
唯一 的 Master， 即 Active 的 负载 均衡 絮 也 继承 了 该 IP 的 行为 。 

虚拟 地 址 通常 也 称 为 虚拟 IP 地 址 。 

可 用 性 (Availability) 

系统 停止 的 可 能 性 。 在 可 用 性 较 高 的 情况 下 ， 通常 该 服务 不 会 随意 终止 ° 
另外 ， 根 据 其 字面 意思 ， 也 可 理解 为 “运行 效率 高 ”或 者 “1 年 中 的 运作 时 间 


长 "等 。 


内 容 (Contents) 


| 内 容 是 指 返 回 给 用 户 浏览 磊 的 HIML 或 图 片 等 数 


静态 内 容 是 指 不 会 发 生变 化 的 内 容 ， 例 如 HIML 或 图 片 等 ;动态 内 容 是 指 
会 变化 的 数据 ， 根 据 请 求 的 不 同 所 返回 的 内 容 也 不 同 。 在 某 些 情 况 下 ， 动 
态 内 容 并 非 单纯 指数 据 本 喘 ， 而 是 指 返回 动态 数据 的 服务 器 站 点 的 程序 。 

服务 器 集群 (Server Farm) 


很 多 服务 器 集合 而 成 的 基础 系统 。 根 据 上 下 文 环境 ， 有 了 时 也 作为 硬件 设施 
的 意思 使 用 ， 与 数据 中 心 的 意思 相同 。 


在 一 些 新 闻 中 ， 有 时 也 会 形象 地 称 为 “服务 絮 农 场 ”。 
元 余 (Redundancy) 


将 系统 的 构成 要 素 配 置 多 个 ， 这 样 即 使 其 中 一 个 因为 发 生 故 障 而 停止 运 
作 ， 也 可 以 立即 切换 到 备用 设备 以 使 服务 不 停止 。 


RAID (Redundant Arrays of Inexpensive Disks) 是 风 余 的 典型 例子 。 
交换 集线器 (Switching Hub) 


目前 市 场 上 几乎 所 有 的 集线器 都 是 市 有 桥接 功能 的 交换 集线器 ， 而 非 “ 中 继 
集线器 ” (Repeater Hub) 。 


有 时 也 称 为 上 2 交换 机 ， 或 者 简单 地 称 为 交换 机 。 
可 扩展 性 (Scalability) 
在 某 种 程度 上 扩展 系统 以 加 强 应 对 的 能 


横向 扩展 (Scale-out) 

通过 将 内 容 分 散 到 多 人 台 服 务 器 并 行 处 理 ， 来 提升 系统 整体 的 性 能 。 
例如 使 负载 均衡 器 下 配置 的 Web 服务 器 的 数量 翻 倍 等 。 

纵向 扩展 (Scale-up) 

通过 提升 单个 服务 器 的 性 能 ， 来 提升 系统 整体 的 性 能 。 


例如 增加 服务 絮 内 存 、 换 代 到 更 高 性 能 的 服务 絮 等 。 

准 生 产 环 境 (Staging Environment) 

0 进行 最 终 的 动作 确认 的 环境 (- 可 参考 “生产 环 
[ 守 ” O 


吞吐 量 (Throughput) 
0 代表 单位 时 间 的 传送 量 《~ 可 参考 “ 延 


pA 


例如 ， 虽 然 同样 是 车 ， 但 和 F1 赛车 相 比 ， 大 巴 车 可 乘坐 的 人 较 多 ， 因 此 大 
巴 车 的 “天 吐 量 * 就 较 大 。 


单 点 故障 (Single Point of Failure) 


若 此 处 出 现 问 题 ， 就 会 令 整 个 系统 停止 ， 即 系统 的 要 害 。 也 叫 作 SPO 
(Single Point of Failure) 。 


例如 ， 即 使 服务 右 由 RAID 和 多 路 复 用 的 电源 构成 ， 如 果 全 部 服务 右 部 连 
| 从 整个 系统 来 看 这 全 交换 集 线 右 即 为 单 点 故 
时 [eo] 


数据 中 心 (Data Center) 
为 了 容纳 服务 器 设备 而 创建 的 专用 设备 的 名 称 。 


安装 有 空调 ， 并 配备 停电 、 火 灾 、 地 震 等 问题 的 应 急 措 施 ， 以 保证 每 时 
刻 都 能 够 正常 提供 服务 。 


守护 程序 (Daemon) 
在 后 人 台 下 持续 运行 并 发 挥 某 种 作用 的 程序 。 
例如 httpd 和 bind 等 。 


网 段 (Network Segment) 


广播 数据 包 所 及 范围 内 的 网 络 段 。 虽 和 “冲突 域 ”(Colision Domain) 意思 相 
近 ， 但 因为 很 多 情况 下 并 无 冲突 发 生 ， 所 以 很 难 再 说 “Network Segment = 


Colision Domain”  °。 


网 络 引 导 (Network Boot) 

通过 网 络 获取 启动 时 必要 的 引导 加 载 程 序 和 内 核 映 像 并 启动 。 

5.5 节 介绍 的 PXE 是 实现 网 络 引导 的 方式 之 一 。 

分 组 〈Packet) 

通常 指 IP 中 数据 的 最 小 计量 单位 。 有 时 也 叫 IP 分 组 、IP 包 、 数 据 包 等 。 
故障 转移 (Failover) 


在 元 余 系 统 中 ， 在 活动 节点 (Active Node) (服务 区 或 者 网 络 设备 ) 停止 
时 ， 自 动 通过 某 种 行为 切换 到 备用 节点 (Backup Node) 。 


顺带 一 提 ， 如 果 不 是 自动 切换 ， 而 是 手动 切换 ， 通 常 叫 作 Switch over 〈 手 
动 切 换 式 故障 转移 ) 。 


故障 恢复 (Failback) 

从 活动 节点 停止 进行 故障 转移 的 状态 ， 恢 复 到 原始 的 正常 状态 。 

帧 (Frame) 

以 太 网 中 数据 的 最 小 计量 单位 。 也 称 为 以 太 网 帧 (Ethernet Frame) 。 
被 阻塞 (Blocked) 


为 了 等 待 读 出 或 写 入 处 理 的 结束 而 无 法 进行 其 他 处 理 的 状态 ， 称 为 “ 因 等 符 
IO 而 被 阻塞 ”。 


| 磁盘 IO 和 网 络 WO 使 用 的 术语 ， 在 输入 输出 处 理 时 一 般 也 会 用 
[| 。 


生产 环境 (Production Environment) 
服务 的 运行 环境 〈《-~ 参考 “ 准 生 产 环境 ”) 。 
健康 检查 (Health Check) 

确认 检查 对 象 的 状态 是 否 正 常 


例如 确认 Web 服务 器 是 否 能 够 啊 应 ping、 是 否 能 连接 TCP 的 80 端口 、 是 
否 能 应 答 HTTP 等 。 通 常情 况 下 ， 奉 健康 检查 失败 ， 束 会 同 管 理 首 发 出 监 
控 对 象 故 障 的 警示 信息 。 

有 时 也 称 为 “服务 存活 状态 的 监控 ”。 

负载 (Load) 

“负载 ?的 种 类 很 多 ， 大 致 可 分 为 “CPU 负载 * 和 “I/O 负载 ?。 


衡量 负载 情况 的 指标 通常 是 load average (平均 负载 ) 这 样 的 数值 。 此 外 
vmstat 及 top 等 命令 也 可 衡量 负载。 具体 请 参见 4.1 节 。 


找 颇 (Bottleneck) 

阻碍 系统 整体 性 能 提升 的 地 方 。 

内 存 文件 系统 (Memory File System) 

并 非 像 磁盘 那样 永久 性 的 存储 装置 ， 而 是 在 内 存 中 建立 的 文件 系统 。 


虽说 使 用 起 来 类 似 磁盘 上 的 文件 系统 ， 但 由 于 存储 在 内 存 中 ， 因 此 一 旦 重 
局 数据 就 会 丢失 。 但 其 拥有 读 写 速度 快 等 优点 。 


轮 询 (Round Robin) 

对 多 台 节 点 有 序 地 派发 请 求 。 

包括 DNS 轮 询 和 负载 均衡 算法 等 。 前 者 是 指 将 多 个 A 记录 (IP 地 址 ) 分 配 
到 一 个 FQDN (完全 限定 域名 ，Fully Qualified Domain Name) 上 以 分 散 请 
求 ， 后 者 是 指 将 请 求 按 顺 序 分 散 到 多 台 服 务 器 上 。 

资源 (Resource) 

指 CPU、 内 存 、 磁 盘 等 服务 器 的 硬件 资源 。 

通常 说 “资源 被 占据 ?就 是 指 CPU 使 用 率 过 高 。 

延迟 (Latency) 


在 网 络 等 数据 通信 和 领域 里 使 用 时 ， 通 常 指数 据 投递 完成 所 花费 的 时 间 (~ 
参考 “吞吐 量 ”) 。 


比如 说 ， 同 样 是 车 ，F1 赛车 就 比 大 巴 车 更 快速 ， 延 迟 更 小 。 

层 (Layer) 

=> 参考 “OSI 参考 模型 ”。 

负载 均衡 器 (Load Balancer) 

位 于 客户 端 与 服务 器 之 间 ， 将 客户 端的 请 求 分 散 到 后 端的 多 台 服 务 器 。 
换 句 话说 ， 就 是 将 多 台 服 务 器 合并 为 一 台 高 性 能 的 虚拟 服务 器 的 装置 。 


第 1 章 服务 大 及 基础 设施 搭建 入 门 
一 一 风 余 及 负载 分 流 的 基础 


1.1 元 余 的 基础 


1.1.1 元 余 概 壕 

见 余 (Redundancy) 是 指 ， 在 故障 发 生 时 ， 使 用 事先 准备 好 的 备份 设备 ， 

使 系统 相关 功能 得 以 继续 提供 服务 。 比 如 工厂 或 者 医院 为 了 防止 停电 ， 一 
般 都 准备 有 发 电 装 置 ， 而 公共 交通 工具 为 了 以 防 万 一 ， 也 配备 有 多 个 制 动 
系统 以 确保 安全 。 

提供 Web 服务 的 网 络 与 服务 器 系统 也 不 例外 ， 为 了 确保 服务 的 可 用 性 ， 对 
系统 进行 见 余 人 处理 的 情况 并 不 少见 。 本 市 将 讲解 实现 系统 见 余 的 基础 知 

识 ， 然 后 再 介绍 个 简单 的 例子 。 

1.1.2 ”元 余 的 本 质 

系统 的 元 余 可 以 通过 以 下 步骤 实现 : 

@ 设想 可 能 发 生 的 故障 


@ 根据 故障 准备 备份 设备 


© 部 署 故障 发 生 时 切换 到 备份 设备 的 工作 机 制 
下 面 按照 以 上 各 个 步 又 ， 对 操作 流程 进行 简单 的 介绍 。 
@ 设想 可 能 发 生 的 故障 


见 余 的 第 一 步 束 是 设想 故障 发 生 时 的 情况 。 请 参考 图 1.1.1 中 简单 的 系统 拓 
扑 结构 ， 来 考虑 该 图 中 可 能 会 导致 系统 故障 的 原因 。 


首先， 列 出 图 1.1.1 所 示 的 系统 可 能 发 生 的 故障 。 
。 路 由 器 故障 所 造成 的 服务 停止 
。 服务 器 故障 所 造成 的 服务 停止 


Internet {ISP ) 


图 1.1.1 最 简易 的 服务 器 系统 

在 图 1.1.1 中 ， 以 上 任何 一 种 情况 发 生 ， 都 会 造成 服务 停止 。 

@ 预先 准备 好 备份 设备 

返 下 来 ， 为 了 应 对 故障 而 预先 准 备 备 份 设备 。 在 图 1.1.1 的 拓扑 结构 中 增设 


一 套 备 份 设备 ， 得 到 的 拓扑 结构 如 图 1.1.2 所 示 。 至 此 ， 备 份 路 由 器 和 备份 
Web 服务 器 还 尚未 连接 到 网 络 。 


Internet ( 1SP |) 


路 由 器 /( 备份 ) 


图 1.1.2 增设 备份 设备 
@ 部 署 工作 机 制 ..…….. 当 故 障 发 生 时 ， 切 换 到 备份 设备 


最 后 ， 部 署 工作 机 制 。 部 署 工作 机 制 通常 是 指 ， 针 对 以 上 @ @ 步 又 中 可 能 
发 生 的 故障 节点 “及 故障 属性 ， 考 虑 通过 在 硬件 层面 部 署 怎 样 的 拓扑 才能 解 
决 这 些 故 障 。 

1 在 计算 机 科学 技术 名 词 [MINGC194] 的 第 112 页 中 ， 关于 计算 机 网 络 的 名 词 node" 对 应 的 翻译 
是 “ 结 点 "， 但 我 们 这 里 将 “hode" 视 为 有 计算 能 力 的 单元 ， 就 像 人 体 的 关节 一 样 ， 因 此 译 为 “ 节 


译 注 


下 面 以 步骤 @ 中 所 设想 的 路 由 融 故 障 和 Web 服务 器 故 障 为 例 ， 对 基本 工作 
机 制 的 部 嗜 和 元 余 中 用 到 的 基本 术语 进行 讲解 。 


1.1.3 ”应 对 路 由 器 故障 的 情况 
在 图 1.1.1 的 状态 下 ， 一 旦 路 由 器 发 生 故 障 ， 服 务 就 会 停止 。 在 图 1.1.2 


中 ， 通 过 增设 备份 设备 ， 即 便 路 由 絮 发 生 故 障 ， 也 能 像 图 1.1.3 中 那样 仅 通 
过 切换 连接 线 就 可 以 方便 地 解决 故障 ， 从 而 恢复 服务 。 


Internet ( ISP ) 


图 1.1.3 应 对 路 由 器 故障 的 情况 
冷 备份 


如 图 1.1.2 和 图 1.1.3 所 示 ， 我 们 平常 并 不 会 用 到 备份 设备 ， 只 有 在 故障 发 
生 时 才 需 要 连接 到 备份 设备 ， 该 工作 机 制 称 为 “ 冷 备份 ”(Cold Standby) 。 


在 此 需要 关注 的 重点 是 : 现 用 设备 与 备份 设备 的 相关 设 定 需要 完全 一 致 。 
即 在 克 余 系统 中 “必须 确保 现 用 没 备 恕 终 写 备份 设备 的 架 科 保持 同村 的 状 


在 使 用 路 由 右 等 网 络 设备 的 情况 下 ， 因 为 不 用 在 生产 环境 中 频 粽 地 修改 设 
定 (切换 连接 ) ， 而 且 数 据 也 并 非 一 定 要 长 期 保存 ， 所 以 使 用 冷 备份 不 失 
为 一 个 现实 可 行 的 方法 。 


1.1.4 ”应 对 web 服务 器 故障 的 情况 
下 面 考 虚 在 Web 服务 器 发 生 故 障 的 时 候 要 如 何 应 对 。 当 Web 服务 器 发 生 故 


隐 时 ， 也 可 以 采取 与 上 述 路 由 硕 发 生 故 障 时 同样 的 思路 ， 即 参照 图 1.1.4 切 
换 到 备份 设备 ， 但 此 处 仍 存 在 一 个 问题 。 


Internet ( 1ISP ) 


图 1.1.4 ”应 对 在 web 服务 器 故障 的 情况 
热 备 份 


综 上 所 述 ， 在 了 见 余 系统 中 “确保 现 用 设备 始终 与 备份 设备 的 以 构 保 持 同 样 的 
状态 ?是 非常 重要 的 。 


在 Web 服务 器 中 ， 面 对 每 天 都 要 更 新 的 网 站 内 容 ， 应 用 软件 或 操作 系统 的 
版 本 更 新 等 也 在 所 难免 。 为 了 能 启用 备份 设备 ， 就 不 能 停止 冷 备份 设备 在 
生产 环境 中 的 各 种 更 新 。 仪 仅 为 了 在 发 生 故 障 时 能 局 用 备份 设备 ， 而 去 费 
时 费力 地 同步 更 新 站 点 内 容 或 应 用 软件 版 本 ， 这 确实 有 些 费 力 不 讨 好 。 


有 个 好 办 法 可 以 解决 该 问题 ， 即 让 Web 服务 器 的 备份 设备 一 直 保 持 接 入 电 
源 及 Interet 的 状态 。 在 现 用 设备 内 容 更 新 时 ， 备 份 设备 也 同步 更 新 内 容 以 
确 傈 与 现 用 设备 的 内 容 一 致 ， 如 图 1.1.5 所 示 。 


Internet ( 1SP ) 


网 站 内 容 的 更 新 
应 用 软件 的 版 本 升级 等 


图 1.1.5 热 备份 模式 的 使 用 


像 这 样 让 两 台 服务 器 同时 运行 ， 并 保持 同样 状态 的 使 用 模式 称 为 < 热 备 
份 ”(Hot Standby) 。 在 使 用 热 备份 的 情况 下 ， 由 于 不 会 物理 性 地 播 拔 网 线 
以 切换 连接 ， 发 生 蕉 障 也 不 会 宕 机 太 攻 时间， 所 以 就 入 及 时 切换 以 解决 
章 成 为 了 可 能 。 


1.1.5 ”故障 转移 
当 现 用 设备 发 生 故障 时 ， 系 统 会 目 动 将 处 理 交 接 到 备份 设备 ， 该 操作 称 为 
故障 转移 (Failover) 。 


服务 器 的 故障 转移 主要 使 用 “虚拟 IP 地 址 ”(Virtual IP Address， 下 文 统 称 
VIP) 与 “IP 地 址 的 映射 (也 称 漂移 ) ”来 操作 。 


VIP 
图 1.1.6 是 使 用 VIP 搭建 Active/Backup ( 现 用 设备 / 备份 设备 ) 拓扑 结构 的 


例子 。 图 中 的 Webl 是 现 用 设备 ， 目 前 VIP (10.0.0.1) 已 经 映射 到 该 设备 
使 用 的 IP 地 址 ， 通 过 连接 到 该 VIP 来 提供 Web 服务 。 


VIP (虚拟 IP 地 址 ) = 
10.0.0.1 

现 用 设备 

10.0.0.101 (Web1 ) 


图 1.1.6 利用 VIP 搭建 的 Active/Backup 拓扑 结构 
IP 地 址 的 映射 


如 图 1.1.7 所 示 ， 当 现 用 设备 发 生 故 障 时 ，VIP 丈 会 映 味 到 备份 设备 ， 让 最 
终 用 户 访问 到 备份 设备 Web2。 


图 1.1.7 IP 地 址 的 映射 
1.1.6 ”检测 故障 .……. 健康 检查 


为 了 能 正常 进行 故障 转移 ， 需 要 在 现 用 设备 发 生 故障 时 及 时 知晓 ， 该 操作 
机 制 称 为 健康 检查 〈Health Check) 。 健 康 检查 有 各 种 类 型 ， 可 以 根据 用 途 
选择 适合 的 方法 。 以 下 举 出 几 种 常用 的 方法 : 


“这 里 的 层次 指 的 是 OSI 参考 模型 中 的 七 层 结构 ， 下 文 同 。 


3 


ICMP 监控 (第 三 层 ?) 


ICMP 监控 是 指 ， 检 查 由 ICMP3 所 发 出 的 echo 请 求 是 否 得 到 了 应 答 。 

由 于 这 是 最 基本 的 健康 检查 ， 因 此 无 法 得 知 Web 服务 (Apache 等 ) 是 

否 已 经 停止 

端口 监控 (第 四 层 ) 

端口 监控 是 指 ， 通 过 使 用 TCP 协议 尝试 连接 目标 主机 ， 检 查 目 标 主 机 

是 否 能 被 连接 。 该 监控 可 以 得 知 Web 服务 是 否 还 在 正常 运行 ， 但 无 从 

得 知 系统 的 负载 状况 ， 也 无 从 得 知 错误 的 回报 情况 

服务 监控 (第 七 层 ) 

通过 实际 发 出 HTTP 请 求 等 ， 检 查 该 请 求 是 否 得 到 了 应 答 。 虽 说 这 种 

i 
J 


译 者 注 


全 称 为 Internet Control Message Protocol， 是 异常 发 生 时 通知 错误 及 错误 信息 的 协议 。 


Web 服务 器 的 健康 检查 


人 
章 。 


其 中 一 种 是 “服务 器 故障 所 造成 的 服务 停止 *， 为 了 检测 出 该 故障 ， 需 要 使 
用 上 文 介绍 的 健康 检查 中 的 “服务 器 监控 "”。 为 什么 需要 使 用 服务 器 监控 
呢 ? 因为 即使 服务 器 已 经 接 入 电源 ， 而 且 对 ICMP 测试 有 应 答 ， 我 们 也 依 
然 不 能 断定 Web 服务 (Apache 等 ) 在 正常 工作 。 为 了 检测 出 Web 服务 器 
的 故障 ， 需 要 尝试 向 需要 测试 的 目标 主机 实际 发 出 HTTP 请 求 ， 并 确认 能 
否 得 到 应 答 ， 这 是 相对 切实 有 效 的 方法 。 


路 由 器 的 健康 检查 


而 为 了 检测 出 “路 由 器 故障 所 造成 的 服务 停止 *"， 束 需要 使 用 ICMP 监控 了 。 
请 注意 这 里 并 不 是 对 路 由 器 进行 ICMP 监控 。 因 为 需要 确认 的 是 “路 由 器 是 
否 正确 进行 了 分 组 (Packet) 交换 *"， 因 此 从 网 络 上 的 其 他 主机 来 监控 Web 
服务 器 是 比较 好 的 选择 。 总 而 言 之 ， 只 要 确定 Web 服务 硕 与 Internet 能 够 
进行 通信 惑 可 以 了 。 


米 米 * 


在 进行 健康 检查 时 ， 首 先 要 明确 目标 ， 这 一 点 最 为 重要 。 
1.1.7 搭建 Active/Backup 的 拓扑 结构 


下 面 就 实际 使 用 Shell 脚本 ， 党 试 搭建 前 文中 如 图 1.1.6 所 示 的 拓扑 结构 。 
这 里 Web1 与 Web2 已 经 分 配 了 只 属于 本 机 的 实际 IP 地 址 。 在 代码 清单 
1.1.1 中 ， 每 秒 对 VIP 发 出 一 次 ping 测试 ， 若 失败 ， 则 该 脚本 会 自行 将 VIP 
了 映射 到 可 用 主机 上 。 


首先 ， 请 在 Web1 中 执行 代码 清单 1.1.1 的 脚本 。 在 输出 字符 串 *fail 
over1 ”后 ， 该 脚本 执行 结束 ， 于 是 VIP 就 被 分 配 到 了 Web1。 接 下 来 ， 
在 Web2 中 执行 代码 清单 1.1.1 中 的 脚本 ， 这 次 每 秒 都 会 ah 
ok1! ”输出 。 


代码 清单 1.1.1 failoversh 


#1/bin/sh 
VIP="10.0.0.1" 
DEV="ethO" 


healthcheck() { 
ping -c 1 -w 1 $VIP >/dev/null 
return $7? 


} 


ip_takeover() { 

MAC= ip link show $DEV | egrep -o '([0-9a-f]{2}:){5}[0-9a-f]{2}' | 
head -n 1 | tr-d.: 

ip addr add $VIP/24 dev $DEV 

send_arp $VIP $MAC 255.255.255.255 ffffffffffff 一 个 


} 
while healthcheck; do 
echo "health ok!" 


echo "fail over!" 
ip_takeover 


| 


※ 请 在 Debian/GNU Linux 4.0 (内 核 版 本 3.1) 以 上 的 版 本 中 执行 上 面 的 代码 。 


请 在 客户 端 对 VIP 执行 ping 指令 ， 并 且 在 执行 的 同时 壬 试 关闭 Web1。 一 
ee Web2 上 运行 的 脚本 的 健康 检查 整 会 失败 ， 从 而 束 会 有 VIP 


如 图 1.1.8 所 示 ， 通 过 在 客户 端 执行 的 ping 指令 所 取得 的 结果 ， 能 够 确认 
在 Web1 关闭 大 概 三 秒 钟 后 ， 卫 地 址 的 映射 操作 已 经 完成 。 


图 1.1.8 ”故障 转移 的 动作 确认 


~$ ping 10.0.0.1 
PING 10.0.0.1 (10.0.0 
bytes from 10. s 
bytes from 
bytes from 
bytes from 
bytes from 
bytes from 
bytes from 
bytes from 
bytes from 


.1) 56(84) bytes of data. 

: icmp_seq=1 ttl1l=64 time=2. 

icmp_seq=2 ttl1=64 time=1. 

icmp_seq=3 ttl1=64 time=5. 

icmp_seq=4 ttl1l=64 time=2. 

icmp_seq=5 ttl1=64 time=0. 

icmp_seq=6 ttl1=64 time=3. 

icmp_seq=7 ttl1l=64 time=3. 

icmp_seq=8 tt1=64 time=0. 有 关闭 Web1 
icmp_seq=11 tt1=64 time=3.20 ms < 已 经 完成 Web2 的 交 


CRoRoRoRoRoR oRoRo) 
CWoRoRoRoNoRoRoRo) 
PPPpPPAPPP 


bytes from 
bytes from 


: icmp_seq=12 tt1=64 time=1.69 ms 
: icmp_seq=13 tt1=64 time=1.48 ms 


吕 吕 
©o© 
FF 


IP 地 址 的 映射 操作 


“JP 地 址 的 映射 操作 * 并 不 是 单纯 的 “仅仅 更 换 IP 地 址 ”这么 简单 。 为 了 对 此 
加 以 验证 ， 我 们 尝试 为 两 台 服务 器 分 配 同一 IP 地址 ， 从 其 他 设备 持续 发 出 
ping 指令 ， 并 交 苦 拔 插 LAN 网 线 。 可 以 发 现 ， 无 论 怎么 氢 插 网 线 ， 通 过 
ping 指令 也 只 能 确认 单 台 服务 器 的 状态 。 


在 LAN (Ethernet， 以 太 网 ) 中 ， 并 不 是 通过 IP 地 址 ， 而 是 通过 被 固定 分 
配给 NIC (Network Interface Card， 网 络 适 配器 ) 的 MAC (Media Access 
Control Address， 介 质 访问 控制 ) 地 址 来 完成 通信 的 。 在 给 其 他 服务 器 发 送 
分 组 的 时 候 ， 为 了 取得 MAC 地 址 ， 通 常 还 会 使 用 到 ARP (Address 
Resolution Protocol， 地 址 解析 协议 ) 。 


ARP 协议 是 指 ， 通 过 指定 目标 设备 的 卫 地 址 ， 查 询 目 标 设备 的 MAC 地 
址 。 但 由 于 每 次 通信 时 都 进行 查询 效率 会 非常 低 ， 因 此 通常 会 将 一 次 取得 
的 MAC 地 址 缓存 在 ARP 缓存 表 中 一 段 时 间 。 这 样 一 来 ， 即 便 别 的 服务 器 
被 分 配 到 了 相同 的 IP 地 址 ， 在 ARP 缓存 表 更 新 之 前 ， 该 服务 器 也 都 没有 办 
人 所 以 在 分 配 IP 地 址 到 其 他 服务 器 时 ， 请 务必 注意 更 新 ARP 组 
了 


你 也 可 以 使 用 gratuitous ARP (GARP) 作为 获取 MAC 地 址 的 手段 。 在 通 
而 没有 使 用 gratuitous ARP 的 情况 下 要 查询 MAC 地 址 时 ，ARP 请 求 的 内 容 
是 “请 告诉 我 这 个 IP 地 址 所 对 应 的 MAC 地 址 ”。 而 若是 使 用 了 gratuitous 
ARP，gratuitous ARP 则 会 通知 其 他 主机 : “这 是 我 的 人 PP 地址 和 MAC 地 
址 。” 在 代码 清单 1.1.1 (failover.sh) 中 ， 在 @ 处 使 用 了 send_arp 命令 ， 
目的 就 是 发 送出 gratuitous ARP 的 通知 消息 。 


1.1.8 ”还 想 更 有 效 地 使 用 服务 器 .…... 负 载 分 发 4 


4Load a 文中 在 强调 分 流 的 逻辑 动作 时 译 为 了 “人 负载 分 发 "强调 负载 的 拓扑 时 译 为 了 “负载 
均衡 "»， 强 调 降低 负载 时 译 为 了 “人 负载 分 流 ”。 一 一 译 者 注 


在 上 述 的 Active/Backup 拓扑 结构 中 ， 仅 使 用 了 现 用 设备 进行 处 理 ， 而 备份 
设备 则 闲置 没 用 ， 仔 细 想 想 还 真是 可 惜 。 寿 是 能 同时 使 用 两 侣 服务 融 来 提 
供 服务 ， 那 网 站 整体 的 处 理性 能 应 该 会 翻 借 吧 。 


使 用 多 台 服 务 絮 分 发 处 理 ， 网 站 整体 的 可 扩展 性 也 会 随 之 提高 ， 这 样 的 做 
法 称 为 被 负载 分 发 (Load Balance， 或 负载 均衡 ) 。 对 Web 服务 器 做 出 负 
载 分 发 的 处 理 后 ， 将 来 即便 访问 量变 高 ， 目 前 的 服务 器 已 经 无 法 满足 需 
求 ， 也 可 以 轻易 地 通过 增设 服务 器 来 满足 相应 的 需要 ， 而 并 不 需要 购买 高 
性 能 服务 器 来 更 换 掉 现 有 的 无 法 满足 需求 的 设备 。 这 样 一 来 ， 即 便 是 旧 的 
服务 器 也 可 以 贡献 余热 ， 也 束 不 会 造成 浪费 。 


在 下 面 的 1.2 节 和 1.3 节 ， 将 介绍 Web 服务 器 负载 分 发 的 具体 搭建 实例 。 


1.2 ”实现 web 服务 器 的 元 余 


1.2.1 DNS 轮 询 


DNS 轮 询 (DNS Round Robin) 是 指 ， 利 用 DNS 把 一 台 服 务 器 需要 处 理 的 
内 容 ， 分 配 到 多 台 服 务 器 来 进行 。 如 图 1.2.1 所 示 为 DNS 轮 询 的 行为 。 假 

定 有 两 名 想 要 访问 www.example.cn 网 站 的 用 户 : A 先生 与 B 先生 ， 这 两 人 
分 别 回 DNS 服务 器 询问 了 www.example.cn 网 站 的 IP 地 址 ， 其 后 DNS 服务 


侣 分 别 向 两 人 解析 返回 了 “x.x.x.1” 与 “x.x.x.2” 两 个 不 同 的 了 P 地 址 ， 于 是 A 
先生 便 通过 x.x.x.1 访问 ，B 先生 则 通过 x.x.x.2 访问 。 


想 要 访问 www.example.cn 
Wy. 


询问 DNS 道 : 
请 告诉 我 www.example.cn 


的 IP 地 址 ! 


DNS 服务 器 
www.example.cn IN A x.x.x.1 
www.example.cn IN A x.x.x.2 


Web 服务 器 2 
有 
图 1.2.1 DNS 轮 询 


在 DNS 服务 器 中 ， 若 同一 个 域名 上 提交 了 多 个 记录 (Record) ， 则 每 次 访 
问 时 DNS 服务 器 都 会 解析 到 不 同 的 IP 地址。 如 果 能 够 利用 好 这 一 特性 ， 

就 能 把 需要 处 理 的 内 容 分 配 到 多 台 服 务 器 上 进行 处 理 。 这 是 相对 比较 简易 
的 负载 分 发 的 实现 方式 ， 但 还 存在 以 下 问题 


。 必须 取得 需要 轮 询 的 目标 服务 器 的 全 局 地 址 


为 了 实现 多 台 服 务 器 的 负载 分 发 ， 取 得 这 些 服务 占 的 IP 地 址 是 利用 服 
务 (线路 ) 的 前 提 

并 不 一 定 能 实现 均等 的 分 发 

在 手机 站 点 中 ， 这 个 问题 被 逐渐 又 露 了 出 来 。 通 稼 来 目 手 机 的 访问 会 
经 由 称 为 行业 网 关 的 代理 服务 侨 ， 由 于 代理 服务 右 会 将 域名 解析 的 结 
果 缓 存 一 段 时 间 ， 所 以 经 由 该 代理 服务 器 的 访问 请 求 承 会 被 解析 到 同 
一 台 服 务 器 上 ， 因 此 就 可 能 无 法 实现 均等 分 配 需要 处 理 的 请 求 ， 而 只 


令 某 台 服 务 器 集中 处 理 。 另 外 在 PC 平台 上 的 网 页 浏览 器 也 会 缓存 这 些 
DNS 解析 的 结果 ， 这 就 令 均 等 分 配 更 加 不 可 能 。 虽 说 将 DNS 记录 的 
TIL (Time To Live，DNS 记录 的 缓存 时 间 ) 修改 得 短 一 些 多 少 可 以 改 
善 这 个 问题 ， 但 这 并 不 说 只 要 修改 TTL， 令 DNS 缓存 频繁 释放 ， 就 能 
解决 根本 问题 


无 从 得 知 服务 器 宕 机 


DNS 服务 絮 不 能 知晓 Web 服务 器 的 负载 或 连接 数 等 信息 ， 因 此 无 法 根 
据 服 务 器 的 反馈 调节 分 配 。 当 Web 服务 器 的 负载 逐步 加 重 ， 啊 应 时 间 
变 得 很 慢 时 ，DNS 也 无 从 得 知 连接 数 是 否 已 经 超出 服务 右 能 够 处 理 
的 范围 。 也 束 是 说 ， 即 便服 务 套 已 经 因为 某 种 原因 宕 机 ，DNS 服务 大 
也 不 会 注意 到 这 些 问 题 ， 只 会 继续 进行 负载 分 发 处 理 。 万 一 用 户 被 分 
配 到 已 经 宕 机 的 服务 器 ， 那 么 该 用 户 要 面 对 的 将 是 出 错 的 页 面 。DNS 
轮 询 始 终 只 是 机 械 地 做 着 负 载 分 发 的 操作 ， 而 这 并 不 属于 元 余 的 操 
作 ， 因 此 很 有 必要 安 逆 其 他 软件 来 进行 健康 检查 、 故 障 转移 等 工作 


1.2.2 ”DNS 轮 询 的 元 余 拓扑 结构 示例 


在 如 图 1.2.2 所 示 的 拓扑 结构 中 ， 两 台 Web 服务 器 都 被 分 配 了 VIP (虚拟 

IP) 。 万 一 Webl 停止 工作 ，VIP1 就 会 映射 到 Web2， 其 后 所 有 的 访问 都 将 

由 Web2 处 理 。 相 反 ， 万 一 Web2 停止 工作 ，VIP2 就 会 映射 到 Web1， 自 然 

其 后 所 有 的 访问 都 将 由 Web1 处 理 。 正 是 因为 Web 服务 器 彼此 之 间 互 相 协 

J 能 够 正常 工作 的 服务 器 ，VIP 就 会 进行 映射 操作 以 维持 服务 
2 销 是 Se 


用 户 访问 
http://www.example.cn/ 


Web 服 务 虽 Web 服 务 器 Web 服 务 器 Web 服 务 器 
10.0.0.101 ( Web1 ) (10.0.0.102 (Web2 ) 10.0.0.101 (Web1 )) (10.0.0.102 ( Web2 ) 


图 1.2.2 ”DNS 轮 询 的 元 余 拓 扑 结构 示例 


如 果 直 接 使 用 上 文 介 绍 的 代码 清单 1.1.1 (failover.sh) 来 搭建 这 个 拓扑 结 
构 ， 束 可 能 会 出 现 以 下 问题 : 


。 必须 修改 Web1 与 web2 的 VIP 设 定 值 
~ 无 法 在 两 台 服 务 器 上 使 用 同样 的 脚本 


。 由 于 使 用 了 ICMP 监控 ， 因 此 即便 web 服务 (Apache 等 ) 停止 , 也 
无 法 触发 故障 转移 


于 是 ， 我 们 将 代码 清单 1.1.1 的 脚本 修改 成 代码 清单 1.2.1 的 脚本 。 
代码 清单 1.2.1 failover2.sh 


#!/bin/sh 
DEV="ethg" 
VIP="10.0.0.1 10.0.0.2" 


healthcheck() { 
for i in $VIP;do 
if [ -z ”ip addr show $DEV | grep $i°" ]; then 


if [ "200" -ne "curl -s -I 'http://$i/' | head -n 1 | cut -f 2 - 
d"' '" ]; then 
CIP="$i" 
return 1 


ip_takeover() { 

MAC= ip link show .$DEV | egrep -o '([0-9a-f]{2}:){5}[0-9a-f]{2}'" | 
head -n 1 | tr-d:. 

ip addr add $CIP/24 dev $DEV 

send_arp $CIP $MAC 255.255.255.255 ffffffffffff 


while healthcheck; do 
echo "health ok!" 


echo "fail over!" 
ip_takeover 


这 样 两 台 服 务 器 束 能 使 用 同样 内 容 的 脚本 了 。 这 里 并 没有 使 用 ping 指令 ， 
而 是 通过 使 用 cur 来 进行 健康 检查 ， 所 以 即使 Web 服务 停止 ， 也 能 启动 故 
障 转移 ， 但 是 这 样 做 仍 会 留 下 两 个 问题 


5 命令 行 的 HTTP 客户 端 软件 。URL http://curl.haxx.se/ 


。 人 Web 服务 停止 也 无 法 释放 VIP， 因 此 可 能 会 造成 IP 地 址 冲 


。 一旦 启动 故障 转移 ， 该 脚本 就 会 停止 运行 
考虑 到 以 上 两 点 ， 还 需要 对 脚本 做 些 修改 ， 如 代码 清单 1.2.2 所 示 。 
代码 清单 1.2.2 failover3.sh 


#1/bin/sh 
DEV="ethO" 
VIP="10.0.0.1 10.0.0.2" 


ip_add() { 
MAC= ip link Show _$DEV | egrep -o '([0-9a-f]{2}:){5}[0-9a-f]{2}' | 
head -n 1 | tr -d : 


ip addr add $1/24 dev $DEV 
Send_arp $i $MAC 255.255.255.255 ffffffffffff 


} 


ip_del() { 
ip addr del $1/24 dev $DEV 


healthcheck() { 
for i in $VIP;do 
if [ "200" -ne "curl -s -I 'http://$i/' | head -n 1 | cut -f 2 -d 


if [ -z " “ip addr show $DEV | grep $i°" ]; then 


ip_del $i 
fi 
fi 
done 


} 


while true; do healthcheck;sleep 1;done 


代码 清单 1.2.2 的 修改 增加 了 以 下 内 容 : 在 VIP 的 健康 检查 失败 的 情况 下 ， 
震 为 目 行 分 配 的 地 址 ， 则 可 视 为 本 机 的 Web 服务 发 生 了 异常 ， 其 后 释放 


相反 ， 攻 不 十 目 行 分 配 的 地 址 ， 则 可 视 为 对 方 的 Web 服务 发 生 了 异 
从 而 自行 将 VIP 映射 。 另 外 ， 在 本 脚本 中 ， 无 论 如 何 映射 VIP， 脚 本 
部 不 会 停止 运行 。 


1.2.3 ”还 想 更 轻松 地 扩充 系统 .…… 负 载 均 衡器 


根据 以 上 介绍 ， 无 论 哪 方 服务 器 的 Web 服务 发 生 了 异常 ， 都 能 够 正确 地 启 
动 故障 转移 。 而 要 想 使 用 DNS 轮 询 在 实现 负载 分 发 的 同时 也 实现 元 余 ， 就 
需要 花费 很 多 心力 。 随 春 服务 器 数量 乓 曾 加 ， 系统 会 越 来 越 复 杂 ， 设 置 
DNS 轮 询 的 见 余 搭建 也 会 变 得 越 来 越 难 。 如 有 果 在 3 台 服务 右上 使 用 代码 清 
单 1.2.2 的 脚本 ， 束 会 出 现 以 下 问题 : 


。 在 某 个 服务 器 宕 机 后 无 法 确定 具体 要 交接 到 哪个 服务 器 
Ry A 


。 一 旦 服务 器 停止 运行 ， 修 复 这 人 台 服 务 器 的 工作 会 变 得 很 困难 


虽说 通过 进一步 完善 脚本 或 者 配合 使 用 其 他 的 软件 应 该 也 能 解决 这 些 问 
题 ， 但 我 们 还 是 硕 望 可 以 更 轻松 地 扩充 系统 。 另 外 ， 在 Web 服务 器 的 拓扑 
结构 中 还 是 尽量 不 要 运行 其 他 软件 。 在 下 面 一 节 中 ， 我 们 将 介绍 负载 均衡 
器 ， 通 过 引入 负载 均衡 器 ， 以 上 问题 就 会 迎刃而解 。 


1.3 ”实现 web 服务 器 的 元 余 基于 IPVS 的 负载 
均衡 器 
1.3.1 DNS 轮 询 与 负载 均衡 器 的 不 同 点 


负载 均衡 器 〈Load Balancer， 也 称 负载 分 发 或 负载 分 流 设 备 ) 能 够 将 向 同 
一 耳 地 址 发 出 的 请 求 分 发 到 多 人 台 服 务 器 进行 处 理 。 而 DNS 轮 询 则 需要 分 
别 向 Web 服务 器 分 配 不 同 的 IP 地址 〈 全 局 地 址 ) 。 因 此 使 用 负载 均衡 器 ， 
能 够 节省 全 局 地 址 的 使 用 。 使 用 DNS 轮 询 的 情况 下 ， 在 染 设 Web 服务 的 元 
余 结 构 时 会 费心 费力 ， 而 负载 均衡 器 则 无 需 这 样 的 操作 。 


。 负载 均衡 器 的 行为 


负载 均衡 器 会 被 作为 虚拟 服务 器 使 用 ， 它 拥有 提供 服务 的 全 局 地 址 。 
通过 将 来 自 客户 端的 请 求 中 转 到 真正 进行 处 理 的 Web 服务 器 (下 文 统 


称 为 真实 服务 器 ) ， 就 像 是 Web 服务 器 一 样 运行 
负载 均衡 器 的 功能 
其 进行 处 


人 负载 均衡 器 是 从 多 台 真 实 服务 器 中 克 出 其 中 一 台 ， 并 交 由 
理 。 人 负载 均衡 器 不 会 选择 健康 检查 失败 的 服务 器 ， 而 一 定 会 选择 健康 
检查 成 功 的 服务 器 。 因 此 无 论 哪 台 服务 器 停止 运行 ， 只 要 有 一 台 服 务 
磺 正 冲 工 作 ， 都 不 会 影响 到 整个 服务 的 正常 提供 


引入 负载 均衡 器 的 门槛 


人 们 可 能 会 对 负载 均衡 器 抱 有 “负载 均衡 器 = 昂 中 的 设备 这样 的 印 
象 ， 还 有 可 能 会 担心 目 己 能 否 使 用 好 这 套 设 备 等 ， 这 些 顾 虑 都 会 提高 
引入 负载 均衡 的 门槛 


关于 引入 负载 均衡 器 的 | 门槛， 确实 专用 的 服务 器 产品 会 比较 贵 ， 每 月 的 最 
低 消费 等 费用 也 比较 高 。 而 且 万 一 发 生 故 障 ， 还 有 必要 联系 研发 商 以 获得 
该 负载 均衡 器 的 技术 支持 。 根 据 使 用 情况 ， 还 有 可 能 需要 升级 防火 墙 等 ， 
因此 也 不 能 中 断 维护 合同 来 缩减 运 宫 经 费 。 在 确保 一 定 程 度 的 鳃 利之 前 ， 
难以 下 决心 引入 负载 均衡 器 的 情况 很 常见 。 但 是 也 可 以 选择 不 使 用 专用 服 


务 器 ， 而 使 用 OSS (OpenSource Software， 开 源 软件 ) 来 搭建 ， 并 由 上 自己 
来 运营 。 接 下 来 将 正式 讲解 如 何 目 行 搭建 生产 环境 中 的 负载 均衡 器 。 


1.3.2 IPVS...... 基于 Linux 的 负载 均衡 器 


即使 不 安装 特别 的 软件 ，Linux 也 可 以 作为 路 由 器 (网 络 设备 ) 使 用 。 而 且 
系统 的 防火 墙 也 有 很 多 实用 的 功能 ， 例 如 分 组 过 滤 (Packet Filtering) 技术 
等 众多 的 网 络 功能 。 提 供 负 载 均衡 功能 的 IPVS (IP Virtual Server) 模块 也 
包含 在 其 中 。 


负载 均衡 器 的 种 类 与 IPVS 的 功能 


返 下 来 说 明 人 负载 均衡 器 的 种 类 。 人 负载 均 衡 右 的 种 类 按 大 的 方向 可 分 为 四 层 
交换 机 (L4 switch) 与 七 层 交 换 机 (L7 switch) 两 种 6。 四 层 交 换 机 进行 的 
是 传输 层 信息 的 处 理 ， 可 以 根据 IP 地 址 或 端口 号 ， 指 定 作 为 分 发 目的 地 的 
服务 硕 。 而 七 层 交 换 机 进行 的 则 是 应 用 层 信息 的 处 理 ， 可 以 根据 从 客户 端 
请 求 的 URL， 指 定 分 发 目的 地 的 目标 服务 器 。 


614 与 17 在 OSI 参考 模型 中 分 别 对 应 第 四 层 (传输 层 ，Transport Layer) 与 第 七 层 (应 用 
Application Layer) 。 


MU 


0 0 
、\ 全 | 。 


在 本 书 的 讲解 中 ， 若 没有 特别 说 明 ， 均 可 认为 是 四 层 交换 机 的 负载 均衡 器 7 
° 另外， 一 般 情 况 下 说 到 人 负载 均衡 器 ， 大 多 默认 指 “ 四 层 交 换 机 ”。 


有 反 向 代理 的 情况 下 ， 也 有 可 能 实现 一 部 分 七 层 交 换 机 的 功能 。 关 于 反 向 代理 的 详情 ， 请 参 
2.1 节 。 


1.3.3 ”调度 算法 

将 处 理 分 发 到 真实 服务 器 时 ， 如 果 平 均 地 分 流 到 所 有 服务 器 ， 在 不 同 配置 
的 服务 器 混合 使 用 的 环境 下 就 有 可 能 造成 服务 器 负载 不 平衡 。 在 IPVS 中 有 
一 种 名 为 “调度 算法 ”(Scheduling Algorithm) 的 调度 器 ， 必 要 的 时 候 能 够 根 
据 环 境 选 择 适 当 的 算法 。 表 1.3.1 是 主要 的 算法 一 饥 

表 1.3.1 主要 的 算法 


< 


名 称 
行为 


rr _ (round-robin， 轮 询 ) 调度 


该 算法 不 考虑 别 的 因素 ， 单 纯 以 轮 叫 的 方式 依次 请 求 真实 服务 器 。 因 此 处 理会 被 均等 地 
分 发 给 所 有 的 服务 器 


wrr (weighted round-robin ， 加 权 轮 询 ) 调度 
与 上 述 的 rr 有 些 类 似 ， 但 该 算法 引用 了 一 个 加 权 值 来 控制 分 发 的 比率 。 加 权 值 越 大 ， 服 务 
人 因此 为 了 让 处 理性 能 较 高 的 服务 器 承受 更 多 请 求 ， 只 需 增 大 其 
1 ] 


lc (least-connection, 最 小 连接 ) 调度 
将 新 的 连接 请 求 分 配 到 当前 连接 数 最 少 的 服务 器 。 在 大 部 分 的 情况 下 使 用 这 
可 问题。 在 不 知道 到 底 要 选择 哪 种 算法 合适 的 情况 下 ， 选 择 这 个 准 没 错 

wlc (weighted least-connection， 加 权 最 小 连接 ) 调度 
与 上 述 的 lc 有 些 类 似 ， 不 过 该 算法 引入 了 加 权 值 。 由 于 该 算法 通过 “(连接 数 +1) = 加 权 
值 ” 算 出 了 最 小 因数 的 服务 器 ， 所 以 会 更 有 效 地 分 配 连 接 。 与 wr 一样 ， 加 大 高 性 能 的 服 
务 器 的 加 权 值 是 比较 好 的 选择 

sed (shortest expected delay， 最 短 预 期 延 时 ) 调度 

该 算法 会 选择 响应 速度 最 快 的 那 台 服务 器 。 但 它 并 没有 监测 传送 数据 分 组 到 目标 服务 器 
的 应 答 时 间 ， 而 是 选择 状态 是 ESTABLISHED 的 连接 数 (下 文 统称 为 活动 连接 数 ) 最 少 的 
服务 器 。 其 行为 基本 上 和 上 述 的 wlc 一 样 ， 但 wlc 会 把 除 ESTABLISHED 以 外 的 状态 
人 的 连接 数 计算 在 最 小 因数 中 ， 这 点 即 是 wlc 与 sed 不 同 的 
地 


nq (never queue， 不 排队 ) 调度 


与 上 述 的 sed 算 法 类 似 ， 该 算法 会 最 优 移 选择 活动 连接 数 为 0 的 服务 器 


针对 真实 服务 器 的 不 同 配置 ， 引 入 了 “加 权 值 ”(Weight) 这 一 参数 ， 可 以 根 
据 需 要 对 加 权 值 进行 合理 的 设 定 。 在 某 些 算法 中 ， 该 加 权 值 越 大 就 表示 服 

务 器 的 处 理 能 力 越 高 ， 据 此 可 以 调节 分 流 比 率 。 在 表 1.3.1 中 的 算法 行为 一 
栏 中 ， 对 每 个 算法 如 何 选 择 真 实 服务 器 一 一 进行 了 说 明 。 

IPVS 中 还 包含 有 表 1.3.1 中 没有 列 出 的 调度 算法 。 通 过 将 IPVS 和 透明 代理 
(Transparent Proxy) 或 高 速 缓存 服务 器 等 并 用 ， 可 以 优化 性 能 。 虽 然 这 里 
不 会 用 到 ， 不 过 我 们 还 是 将 这 些 算法 进行 了 整理 ， 如 表 1.3.2 所 示 。 


表 1.3.2 其 他 的 调度 算法 


sh (source hashing， 源 地 址 散 列 ) 调度 
发 请 求 的 下 地 址 ( 即 源 地 址 ) 计算 散 列 值 (Hash Value) ， 并 通过 该 值 选择 具体 分 发 


到 哪个 真实 服务 器 


dh (destination hashing， 目 标 地 址 散 列 ) 调度 


需要 接收 请 求 的 目标 IP 地 址 计算 散 列 值 ， 并 通过 该 值 选择 具体 分 发 到 哪个 真实 服务 器 


lblc (locality-based least-connection ， 基 于 局 部 性 的 最 小 连接 ) 调度 


在 连接 数 没有 超过 加 权 值 指定 的 值 时 ， 将 选择 同一 人 台 服 务 器 。 若 是 超过 了 加 权 值 指定 的 
值 ， 则 选择 其 他 的 服务 器 。 当 所 有 服务 器 的 连接 数 都 超过 加 权 值 指定 的 值 时 ， 将 选择 最 
终 所 选 的 那 台 服务 器 


lblcr (locality-based least-connection with replication ， 带 复制 的 基于 局 部 性 最 小 连接 ) 
调度 


与 上 述 的 Ilblc 有 些 类 似 ， 当 所 有 服务 器 的 连接 数 都 超过 加 权 值 指定 的 值 时 ， 将 选择 连接 数 
最 少 的 那 台 服务 器 


1.3.4 使 用 IPVS 
可 以 通过 以 下 软件 使 用 IPVS 的 功能 : 


。 ipvsadm URL http:/www.linuxvirtualserver.org/software/ipvs.html 
。 keepalived URL http:/www.keepalived.org/ 
ipvsadm 


ipvsadm 是 由 IPVS 的 开发 商 提供 的 命令 行 工 具 ”。 除 了 定义 虚拟 服务 器 及 
分 配 真 实 服务 器 等 功能 外 ， 也 可 以 确认 设 定 内 容 和 连接 状态 ， 习 外 也 能 将 
传输 率 等 统计 信息 显示 出 来 。 


8 其 地 位 就 相当 于 netfilter 组 件 与 iptables 命令 之 间 的 关系 。 


keepalived 


keepalived 是 用 C 语言 编写 的 守护 程序 。 可 以 根据 配置 文件 

(/etc/keepalived/keepalived.conf) 的 内 容 来 搭建 IPVS 的 虚拟 主机 。 其 功能 
主要 表现 在 : 对 真实 服务 器 进行 健康 检查 ， 并 有 目 动 将 已 经 宕 机 的 服务 需 排 
除 在 负载 均衡 所 分 配 的 范围 外 ， 如 果 所 有 的 真实 服务 句 全 数 宕 机 ， 则 会 显 
示 “ 服 务 絮 繁忙 ”等 消息 ， 即 具备 sorry_server 功能 。 


截至 2014 年 11 月 ， 最 新 的 版 本 是 keepalived-1.2.13， 该 版 本 支持 以 下 健康 


。 re 通过 发 送 HTTP 的 GET 请 求 来 确认 目标 服务 器 的 应 答 
情 ; 


。 : 通过 发 送 HTTPS 的 GET 请 求 来 确认 目标 服务 器 的 应 答 
请; 


。 人 : 通过 测试 TCP 连接 是 否 正 常 来 确认 目标 服务 器 的 情 
? 


。SMTP_CHECK : 通过 发 送 SMTP 的 HELO 命令 来 确认 目标 服务 器 的 
应 答 情 况 


。MISC_CHECK : 通过 执行 外 部 命令 所 返回 的 结束 代码 来 确认 目标 服 
务 器 的 健康 状况 


1.3.5 ”搭建 负载 均衡 器 


接 下 来 使 用 keepalived 搭建 如 图 1.3.1 所 示 的 系统 。 这 里 将 10.0.0.1 作为 服 
务 器 使 用 的 全 局 卫 地 址 。 在 该 负载 分 发 的 拓扑 结构 中 ， 当 客户 端 访问 
http://10.0.0.1/ 时 ， 该 请 求 就 会 被 转 到 Web1 与 Web2 进行 处 理 。 其 他 详细 的 
配置 参数 如 下 。 


Web 服务 器 
192.168.0.1 { Web1 


负载 均衡 器 
192.168.0.254 


图 1.3.1 使 用 负载 均衡 器 进行 负载 分 流 
。 调 度 算法 : rr (round-robin) 
。 健康 检查 的 类 别 : HTTP_GET 
。 健康 检查 的 页 面 : http://health/health.html 
。 健康 检查 成 功 的 条 件 : 状态 代码 返回 200 


。 健康 检查 的 超时 时 间 : 5 秒 
代码 清单 1.3.1 是 将 以 上 参数 作为 keepalived 的 配置 文件 进行 编写 的 。 
代码 清单 1.3.1 keepalived 的 配置 


virtual_ server_group example { 
10.0.0.1 80 


virtual_ server group example { 
lvs_sched rr 
lvs_method NAT 
protocol TCP 
virtualhost health 
real_server 192.168.0.1 80 { 
weight 1 
HTTP_GET { 
url { 
path /health.html 
status_code 200 
} 
connect_port 80 
connect_timeout 5 


} 


real_server 192.168.0.2 80 { 
weight 1 
HTTP_GET { 
Url { 
path /health.html 
status_code 200 


connect_port 80 
connect_ timeout 5 


配置 Web 服务 器 
在 启动 keepalived 前 ， 需 要 确认 Web 服务 器 的 配置 ， 必 要 的 操作 有 下 面 3 


A 


设置 默认 网 关 为 192.168.0.254 
。 设 置 健康 检查 页 面 


。 设置 用 于 确认 运行 情况 的 页 面 


在 此 拓扑 中 ， 来 目 客户 端的 请 求 与 来 目 真实 服务 右 的 啊 应 都 必须 经 由 负载 
因此 需要 事先 设置 各 Web 服务 器 的 默认 网 关 为 负载 均衡 器 的 IP 地 


Keepalived 会 对 真实 服务 颖 进行 健康 检查 。 这 里 访问 
http://health/health.html ， 并 检查 是 否 会 返回 200 的 状态 代码 ， 
因此 有 必要 在 每 个 Web 服务 器 上 都 设置 一 个 用 来 做 健康 检查 的 页 面 。 


另外 还 需要 准备 好 确认 运行 情况 的 页 面 。 在 确认 运行 情况 时 ， 为 了 更 容易 
地 把 握 具 体 分 流 到 了 哪个 服务 器 ， 应 该 特意 将 index.html 写 入 为 不 同 的 内 容 
以 示 区 别 ， 这 里 将 index.html 写 入 主机 名 (Web1l、Web2) 。 


局 动 keepalived 


请 把 代码 清单 1.3.1 放 到 /ect/keepalived/keepalived.conf 下 ， 然 后 局 动 
keepalived，IPVS 的 虚拟 服务 器 了 束 搭建 好 了 。 如 图 1.3.2 所 示 ， 可 以 使 用 
ipvsadnm 命令 确认 虚拟 服务 器 。 在 图 1.3.2 中 ， 代 码 清单 将 连接 到 
10.0.0.1:80 的 请 求 ， 分 流 到 192.168.0.1:80 与 192.168.0.2:80 两 台 主 机 上 进行 
处 理 。 


# ipvsadm -Ln 
IP Virtual Server version 1.2.1 (size=1048576) 
Prot LocalAddress:Port Scheduler Flags 
-> RemoteAddress:Port Forward Weight ActiveConn InActConn 
10.0.0.1:80 rr 


192.168.0.1:80 Masq 1 


0 0 
192 .168.0.2:80 Masq 1 0 0 


图 1.3.2 ”确认 虚拟 服务 器 
确认 负载 分 流 


从 客户 端 访问 http:/10.0.0.1， 会 得 出 如 图 1.3.3 所 示 的 结 采 。 每 次 访问 都 会 
交 蔡 连接 到 Web1 与 Web2， 从 而 就 可 以 确认 负载 分 流 的 具体 执行 情况 。 


$ curl 'http://10.0.0.1/" 
Web1 


$ curl 'http://10.0.0.1/" 


Web2 


$ curl 'http://10.0.0.1/" 
Web1 


$ curl 'http://10.0.0.1/" 
Web2 


图 1.3.3 确认 负载 分 流 

确认 元 余 的 拓扑 结构 

下 面 在 web2 宕 机 的 情况 下 再 次 尝试 访问 。 从 图 1.3.4 中 能 够 看 出 ， 可 以 正 
常 连接 到 Web1 的 主机 。 所 以 能 够 确认 ， 在 宛 余 的 拓扑 结构 下 ， 即 使 Web2 
停止 工作 也 不 会 产生 错误 ， 依 旧 可 以 正常 访问 。 


$ curl 'http://10.0.0.1/" 
Web1 


$ curl 'http://10.0.0.1/" 
Web1 


$ curl 'http://10.0.0.1/" 
Web1 


$ curl 'http://10.0.0.1/" 
Web1 


图 1.3.4 ”确认 元 余 的 拓扑 结构 
1.3.6 ”四 层 交 换 机 与 七 层 交换 机 


前 文 提 到 了 人 负载 均衡 右 分 为 四 层 交 换 机 与 七 层 交 换 机 两 种 。 虽 说 都 是 进行 
人 负载 分 发 ,但 两 者 的 处 理 内 容 却 有 很 大 的 差异 。 四 层 交 换 机 通过 解析 TCP 
头等 协议 头 的 内 容 ， 来 决定 分 流 的 目的 地 ， 而 七 层 交 换 机 则 通过 解析 软件 
应 用 层 的 内 容 ， 来 决定 分 流 的 目的 地 。 


图 1.3.5 表现 了 四 层 交 换 机 与 七 层 交 换 机 的 不 同 点 。 在 四 层 交 换 机 中 ， 客 户 
端 (Web 浏览 器 ) 的 通信 目标 是 真实 服务 器 。 而 在 七 层 交换 机 中 ， 负 载 均 
衡器 和 客户 端 会 完 通过 TCP 会 话 进行 握手 。 也 融 是 说 ， 每 次 访问 都 会 经 


客户 端 <=> 七 层 交换 机 中 六 人 色 由 框 < > 七 层 交 换 机 中 白色 的 框 <=> 真 实 
下 务 吕 (图 中 为 两 台 ) 


“选择 分 流 的 服务 器 
“原封 不 动 地 传送 分 组 


图 1.3.5 四 层 交 换 机 与 七 层 交 换 机 的 不 同 点 
四 层 交 换 机 与 七 层 交换 机 的 特点 可 以 简明 地 总 结 如 下 : 
。 追求 设 定 的 灵活 性 就 用 七 层 交 换 机 
。 追求 性 能 就 用 四 层 交 换 机 
专栏 
七 层 交 换 机 的 灵活 设 定 
七 层 交 换 机 可 以 将 类 似 http://example.cn/* ,png 这 样 的 图 片 文 


件 发 送 的 请 求 分 配 到 图 片 专用 的 服务 器 进行 处 理 。 而 对 于 像 
http://example.cn/hoge?SESSIONID=xxxxxxxx 这 样 包含 会 话 


ID 的 请 求 ， 七 层 交 换 机 还 可 以 将 同一 会 话 ID 的 请 求 分 配 到 同一 台 服务 
俐 进行 处 理 。 


也 束 古 说 ， 类 似 于 请 求 目标 URL 等 应 用 软件 协议 的 内 容 ， 可 以 说 作 为 
选择 真实 服务 占 时 的 条 件 使 用 。 相 反 ， 人 负载 均衡 右 不 能 识别 的 协议 ， 
则 自然 无 法 实现 负载 分 流 。 比 如 在 对 SMTP 进 行 负载 分 流 时 ， 虽 说 理论 
上 可 以 通过 七 层 交 换 机 实现 “将 特定 收 件 人 的 邮件 发 送 到 特定 的 服务 
絮 ”"， 但 寿 是 负载 均衡 器 不 文 持 SMTP， 那 束 无 法 使 用 。 


如 何 决 定 将 什么 样 的 协议 根据 什么 样 的 规则 来 进行 分 流 呢 ?虽说 可 以 
依靠 负载 均衡 器 所 提供 的 功能 ， 但 “使 用 七 层 交 换 机 束 万 事 大 吉 了 ”这 
样 的 想法 是 要 不 得 的 。 在 选 定 七 层 交 换 机 时 ， 将 想 要 做 的 工作 都 准确 
无 误 地 确认 好 ， 这 是 很 重要 的 。 


1.3.7 ”四 层 交 换 机 的 NAT 模型 与 DSR 模型 
下 面 对 四 层 交 换 机 的 性 能 优势 做 个 介绍 。 请 先 思 考 一 下 四 层 交 换 机 的 哪些 
模型 造就 了 该 拓扑 结构 的 性 能 优势 。 


四 层 交 换 机 可 以 利用 图 1.3.1 中 搭建 的 NAT (Network Address Translation ， 
网 络 地 址 转换 ) 模型 ， 为 了 追求 更 高 的 性 能 ， 也 可 以 搭建 DSR (Direct 
Server Return， 和 直接 服务 器 返回 ) 模型 。DSR 与 NAT 的 不 同 点 请 参考 图 
1.3.6。 


虚拟 服务 器 
y.Y.YY 


虚拟 服务 器 
yY.y.y.Y 
四 层 交换 机 ( DSR ) 


Web 服务 器 


Gi 


图 1.3.6 DSR (下 图 ) 与 NAT (上 图 ) 的 不 同 点 


在 NAT 模型 下 ， 四 层 交 换 机 从 客户 端 收 到 数据 分 组 后 整修 改 分 组 的 目的 IP 
地 址 ， 并 将 分 组 转发 到 真实 服务 器 上 。 因 此 在 真实 服务 器 接收 到 应 答 数 据 
分 组 后 ， 和 需要 特别 返回 源 IP 地 址 。 而 在 DSR 模型 下 ，IP 地 址 并 不 会 被 映 
射 。 四 层 交 换 机 从 客户 端 接收 到 分 组 后 ， 不 做 任何 修改 束 直 接 将 分 组 从 路 
由 妖 发 送 到 真实 服务 器 上 。 在 这 种 情况 下 ， 由 于 没有 必要 对 应 管 的 分 组 返 
回 IP 地 址 ， 因 此 真实 服务 器 即使 不 经 由 四 层 交 换 机 也 能 够 返回 应 答 。 


知 担 心 负载 均衡 器 出 现 瓶 颈 问 题 ， 或 者 需要 能 够 承受 高 流量 的 负载 分 发 环 
境 ， 这 里 推荐 使 用 DSR 模型 。 顺带 一 提 ， 在 使 用 keepalived 来 搭建 DSR 
时 ， 请 将 lvs_method 设 定 为 “DR”( 请 注意 在 这 里 不 应 该 设 定 为 “DSR”) 


但 在 DSR 模型 中 ， 发 送 给 虚拟 服务 器 的 分 组 (全 局 卫 分 组 ) 没有 做 任何 修 
改 束 原 样 到 达 了 真实 服务 器 ， 由 于 真实 服务 器 不 能 处 理 该 全 局 IP 分 组 ， 

此 无 法 处 理 该 请 求 。 也 束 可 以 说 ， 对 于 NAT 模型 的 系统 ， 只 修改 负载 均衡 

妖 的 设 定 是 没有 办 法 实现 负载 均衡 的 。 


人 简便 的 设 定 方 式 是 ， 将 虚拟 服务 器 的 IP 地 址 映射 到 真实 服务 万 的 环 回 接 


(Loopback Interface) 上 ， 另 外 还 有 一 种 方法 是 ， 使 用 netfilter 的 相关 功 


最 
口 
能 ， 将 发 给 虚拟 服务 器 的 分 组 的 本 地 源 地 址 映射 为 私有 的 本 地 全 球 地 址 


( 即 在 本 地 范围 内 扩大 地 址 的 使 用 范围 ， 以 扩展 地 址 的 容量 ) ， 这 种 方式 
2 DNAT (Destination Network Address Translation， 目 的 网 络 地 址 转 


1.3.8 ”同一 子 网 下 的 服务 器 进行 负载 分 流 时 需要 注意 的 地 方 


至 此 ， 我 们 已 经 探讨 了 公 网 Web 服务 左 的 负载 分 流 。 其 实 负载 均衡 右 的 用 
途 并 不 仅 限 于 此 ， 例 如 在 信息 发 布 系 统 中 ， 从 Web 服务 器 到 邮件 服务 器 可 
能 需要 发 送 大 量 邮件 。 若 只 有 一 台 邮件 服务 器 来 处 理 ， 想必 会 化 不 少时 
间 ， 因 此 可 以 考虑 使 用 负载 均衡 器 将 邮件 服务 占 进 行人 负载 分 流 。 类 似 这 样 
的 情况 可 以 考虑 参考 图 1.3.7， 但 该 拓扑 结构 有 几 点 需要 注意 的 地 方 。 


在 ; 这 样 的 拓扑 结 构 中 
无 法 使 用 NAT 


虚拟 服务 器 


192.168.0.150 


Web 服务 器 邮件 服务 器 
192.168.0.1/24 192.168.0.151/24 ( Mail1 ) 


邮件 服务 器 
192.168.0.152/24 ( Mail2 ) 


图 1.3.7 同一 子 网 下 的 负载 分 流 


在 同一 子 网 需要 负载 分 流 时 ， 不 能 使 用 NAT 模型 。NAT 模型 下 会 映射 负载 
均衡 器 的 源 IP 地 址 ， 比 如 在 邮件 服务 器 中 ， 接 收 到 的 分 组 是 从 源 地 址 
192.168.0.1 发 送 到 目的 地 址 192.168.0.151 的 ， 因 此 该 邮件 服务 器 返回 的 应 
答 分 组 的 源 地 址 是 192.168.0.151， 目 的 地 址 是 192.168.0.1。 正 因为 源 地 址 
192.168.0.151 与 目 的 地 址 192.168.0.1 是 同一 子 网 下 的 IP 地址， 因此 不 会 将 
分 组 发 往 负 载 均衡 器 ， 而 直接 从 源 地 址 发 送 到 Web 服务 器 。 因 此 该 NAT 模 
型 en TP 地 址 尚未 被 正确 转发 到 目标 服务 器 ， 进 而 就 造成 了 不 能 正 
常 完成 通信 。 


该 情况 下 ， 使 用 上 文 介 绍 的 DSR 模型 是 比较 好 的 选择 。 因 为 DSR 模型 不 
用 映射 负载 均衡 右 的 IP 地 址 ， 所 以 束 算 邮件 服务 套 直 接 癌 Web 服务 器 返回 
应 答 也 完全 没有 问题 。 

专栏 

基于 Linux 平 台 的 七 层 交 换 机 


基于 Linux 平 台 搭建 七 层 交 换 机 所 使 用 的 软件 还 在 不 断 开 发 中 ， 以 下 介 
绍 两 款 软件 : 


。 UltraMonkey-L7 


URL http://sourceforge.jp/projects/ultramonkey-17/ 
。 Linux Layer7 Switching 

URL http://zh.sourceforge.jp/projects/freshmeat_linux-l7sw/ 
UltraMonkey-L7 于 2008 年 1 月 发 布 了 1.0.1-0 版 本 。 截 至 目前 (2014 年 11 
月 ) ， 已 经 更 新 到 了 3.1.1-1 版 。 现 在 使 用 UltraMonkey-L7 已 经 可 以 搭建 
稳健 的 七 层 交 换 机 ， 该 软件 的 实用 性 也 非常 让 人 满意 。 
而 Linux Layer7 Switching 里 然 于 2007 年 1 月 发 布 了 0.1.2 版 本 ,但 似乎 之 后 
该 软件 并 没有 更 新 ， 该 软件 有 多 大 的 实用 性 现在 还 是 未 知 数 。 


1.4 路 由 器 及 负载 均衡 器 的 元 余 


1.4.1 负载 均衡 器 的 见 余 

到 目前 为 止 ， 我 们 都 只 在 介绍 Web 服务 右 的 元 余 ， 还 尚未 提 及 负载 均衡 郁 
的 元 余 。* 如 果 仅 有 的 一 台 人 负载 均衡 右 发 生 故 障 的 话 ， 那 么 所 有 的 服务 都 会 
停止 。 虽 说 可 以 使 用 冷 备份 ， 为 预防 故障 事先 多 准备 一 台 人 负载 均衡 器 作为 
备用 ， 但 是 当 故 障 发 生 时 寿 没 有 人 力 干 预 ， 依 旧 无 法 及 时 恢复 运行 。 

本 下 将 介绍 路 由 需 及 负载 均衡 右 的 故障 转移 的 方法 。 


1.4.2 虚拟 路 由 器 宛 余 协议 (VRRP) 


现在 市 面 上 有 很 多 包含 见 余 功能 的 路 由 絮 与 负载 均衡 右 的 产品 。 以 前 由 于 
产品 之 间 安 装 的 元 余 实 现 各 不 相同 ， 因 此 基本 上 都 使 用 | 商 独 有 的 协议 。 


当然 不 同 的 协议 间 不 能 相互 兼容 ， 这 会 造成 很 多 不 便 ，Cisco 公司 以 HSRP 
(Hot Standby Routing Protocol， 热 备份 路 由 器 协议 ) 为 基础 ， 制 定 出 了 不 
依赖 于 厂商 的 见 余 协议 ， 即 VRRP (Virtual Router Redundancy Protocol， 
虚拟 路 由 器 元 余 协 议 ) 。 很 多 路 由 需 及 负载 均衡 需 都 采用 了 在 RFC 37688 
中 定义 的 VRRP。 上 一 节 中 介绍 的 keepalived 也 使 用 了 VRRP， 这 样 只 需 再 
搭建 一 人 台 负 载 均 衡 右 ， 并 在 keepalived 添加 相关 的 设 定 ， 承 可 以 实现 元 余 。 


9 URL http://www.ietf.org/rfc/rfc3768.txt 


1.4.3 VRRP 的 拓扑 模型 


路 由 器 与 负载 均衡 器 的 故障 转移 的 原理 ， 与 1.1 节 中 讲解 Web 服务 器 的 故 
障 转移 流程 时 提 到 的 “健康 检查 ”IP 地 址 的 映射 * 几 乎 是 一 样 的 ， 即 检查 节 
扩 是 否 正常 工作 ， 万 一 出 问题 的 话 ， 备 用 市 点 束 会 映射 VIP (虚拟 地 址 ) ， 
发 生 故 障 转移 。 


在 介绍 VRRP 的 搭建 及 设 定 前 ， 我 们 首先 对 VRRP 常用 的 规则 、 术 语 ， 以 
及 其 行为 做 了 如 下 整理 。 使 用 VRRP 时， 请 留心 这 些 关键 字 : “VRRP 报 
文 2 虚拟 规则 ID 关 优 先 顺 序 ” 抢 占 模式 ”虚拟 MAC 地 址 ”。 


VRRP 报 文 
所 谓 健康 检查 ， 一 般 是 指定 期 对 监控 对 象 的 设备 发 出 一 些 请 求 ， 确 认 这 些 
请 求 是 否 取得 了 应 答 。 而 VRRP 则 通过 相反 的 途径 监控 主 和 点 的 运行 ， 即 
VRRP 的 主 节点 会 定期 将 VRRP 报 文 (VRRP Packet) 不 断 地 发 送 到 多 点 
传送 地 址 (224.0.0.18，Multicast Address) 。 由 于 VRRP 报 文 类 似 于 “ 播 
报 ”* 主 六 点 可 用 的 信息 ， 因 此 也 被 称 为 “组 播 信息 ”(Advertisement)。 图 1.4.1 
是 VRRP 报 文 的 格式 ， 该 报 文 对 以 下 三 项 数据 进行 了 编排 : 

。IP Address (虚拟 IP 地址 ， 即 VIP) 

。 Virtual Rtr ID (虚拟 路 由 器 ID) 


。 Priority (优先 顺序 ) 


0 1 2 3 
O1234567890123456789012345678901 
十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 
IVersion| Type | Virtual Rtr ID| Priority | Count IP Addrs| 


-十 -十 -十 -十 -十 -十 -十 - 
Auth Type 
-十 -十 -十 -十 -十 -十 -十 - 


-十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 - 
Adver Int | Checksum 
-十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 - 
IP Address (1) 
-十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 - 


+ 一 十 


-十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 - 
IP Address (n) 
-十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 - 
Authentication Data (1) 
-十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 - 
Authentication Data (2) 
-十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 - 


+ 一 + 一 + 一 + 一 一 一 + 一 + 一 二 
+ 一 + 一 + 一 + 一 一 一 + 一 + 一 二 


图 1.4.1 VRRP 报 文 的 格式 > 


※ 引 自 http://www.ietf.org/rfc/rfc3768.txt 。 


省 用 站 局 通 常会 在 正确 搂 收 到 VRRP 报 文 果 进入 和 和 寺 机 状态 ， 若 一 段 时 间 没 
有 收 到 VRRP 报 文 的 信息 ， 备 用 节点 就 会 认为 主 节 点 已 经 罕 机 ， 从 而 启 动 
故障 转移 。 因此 在 VRRP 中， 备用 节点 不 会 主动 地 确认 主 节 点 的 状态 。 


虚拟 路 由 器 ID 


向 事先 决定 的 组 播 地 址 (224.0.0.18) 发 送 VRRP 报 文 时 ， 该 组 播 地 址 从 头 
到 尾 都 不 会 改变 。 如 图 1.4.2 所 示 ， 在 同一 网 络 上 同时 设置 有 多 台 人 负载 均衡 
器 的 情况 下 ， 所 有 的 VRRP 报 文 都 会 发 向 同一 地 址 。 这 看 起 来 似乎 会 引起 
错误 操作 ， 但 实际 上 VRRP 中 使 用 了 名 为 虚拟 路 由 器 ID 的 参数 ， 可 以 分 ) 辩 
实例 ， 因 此 不 会 出 现 问题 。 如 图 1.4.2 所 示 ， 在 负载 均衡 器 A、B 与 负载 均 
衡器 C、D 中 ， 只 需 对 虚拟 路 由 器 ID 做 出 合理 设 定 ， 就 能 确保 图 1.4.2 的 
拓扑 模型 可 以 正常 工作 。 


A 
ae 
Pa Se 


负载 均衡 器 人 


{ Active ) 
224.0.0.18 


发 送 VRRP 报 文 


发 送 VRRP 报 文 


图 1.4.2 在 同一 网 络 上 设置 多 台 负 载 均衡 器 
优先 顺序 


在 VRRP 的 拓扑 结构 示例 中 ， 经 常 可 以 看 到 拓扑 结构 由 Active/Backup 两 台 
设备 构成 ， 但 在 实际 使 用 中 也 有 可 能 同时 拥有 100 台 以 上 的 备用 节点 ， 这 
样 就 可 能 会 造成 一 个 问题 ， 当 两 台 以 上 的 备用 市 点 同时 工作 时 ， 若 是 主 市 
点 出 现 问 题 ， 那 么 主 世 点 具体 要 漂移 到 哪个 备用 节点 呢 ? 


在 VRRP 中 ， 会 为 各 节点 设 定 优先 顺序 (Priority) 的 值 ， 各 节点 在 接收 不 
到 VRRP 报 文 时 ， 会 自行 发 出 VRRP 报 文 。 由 于 VRRP 报 文 中 有 事先 设 定 
的 优先 顺序 值 ， 因 此 通过 比较 该 值 ， 就 可 以 迅速 了 解 到 比 本 节点 优先 值 高 
的 其 他 节点 是 否 存 在 。 万 一 有 其 他 节点 的 优先 值 比 本 节点 高 ， 则 其 他 节点 
会 比 本 节点 优先 升格 为 主 节 上 点。 虽然 是 非常 简单 的 操作 ， 但 通过 设 定 节点 
的 优先 顺序 ， 在 漂移 到 备用 节点 时 ， 就 可 以 从 优先 顺序 高 的 节点 依次 进 
行 ， 使 优先 顺序 高 的 备用 节点 作为 主 节 点 使 用 。 


抢占 模式 


在 VRRP 的 默认 设 定 中 ， 当 比 现 有 的 主 节 点 优先 顺序 高 的 节点 局 动 时 ， 会 
发 生 故 障 转移 。 也 就 是 说 可 以 认为 优先 顺序 高 的 节点 一 定 是 主 节 点 。 这 人 


行为 可 以 通过 设 定 抢占 模式 (Preemptive Mode) 进行 改变 。 将 抢占 模式 设 
为 无 歼 的 情况 下 ， 只 要 主 世 点 正常 工作 ， 即 使 其 他 贡 点 的 优先 级 比 主 志 点 
高 ， 也 不 会 出 现 故 障 转移 。 


根据 情况 的 不 同 ， 选 择 的 抢占 模式 也 不 一 样 。 比 如 主 节 后 的 情况 已 经 不 乐 
观 ， 设 备 很 可 能 会 频 尝 重启 ， 这 时 将 抢占 模式 设 为 无 效 古 比较 好 的 选择 。 
相反 ， 如 果 十 为 了 防止 操作 失误 而 布 望 在 两 季 点 都 可 以 选择 时 ， 一 定 要 漂 
移 到 特定 的 节 上 后， 则 将 抢占 模式 设 为 有 效 会 是 比较 好 的 选择 。 


虚拟 MAC 地 址 


VRRP 中 除了 定义 了 虚拟 IP 地 址 ， 还 定义 了 虚拟 MAC 地 址 。 为 了 完成 映 
射 ， 在 故障 保护 时 ， 不 仅 需要 映射 TP 地址 ， 还 需要 映射 MAC 地 址 。 如 果 
在 不 映射 MAC 地 址 的 情况 下 映射 TP 地址 ， 通 信 目 标 下 所 有 设备 的 ARP 组 
存 表 都 需要 更 新 。 为 此 ， 一 般 使 用 1.1 方 介绍 的 gratuitous ARP 进行 ARP 
请 求 ， 但 在 以 太 网 (Ethernet) 的 操作 环境 中 ， 无 法 保证 所 有 的 设备 都 能 
常 收 到 ARP 请 求 。 万 一 哪个 设备 的 ARP 缓存 表 没有 更 新 ， 则 直到 该 设备 
的 ARP 缓存 更 新 为 止 ， 都 没 办 法 与 这 人 台 设 备 进行 通信 。 


为 此 ， 在 VRRP 中 映射 MAC 地 址 时 ， 需 要 对 通信 目标 的 ARP 请 求 的 更 新 
进行 特别 处 理 。 例 如 在 RFC 3768 中 ， 在 进入 主 节 点 状态 前 会 发 出 
gratuitous ARP， 其 实 这 样 做 的 目的 不 是 为 了 更 新 通信 目标 的 ARP 缓存 表 ， 
而 是 为 了 更 新 二 层 交 换 机 中 MAC 地 址 的 学 习 状态 。 


1.4.4 安装 keepalived 时 可 能 遇 到 的 问题 


在 keepalived 的 VRRP 中 ， 由 于 不 使 用 虚拟 MAC 地 址 ， 因 此 无 法 按照 RFC 
3768 的 方式 进行 安装 。 虽 说 在 Linux 平台 下 可 以 改变 MAC 地 址 ， 但 因为 
无 法 拥有 多 个 MAC 地 址 ， 安 装 的 keepalived 中 就 无 法 使 用 虚拟 MAC 地 
址 ， 所 以 在 故障 转移 时 束 很 可 能 存在 ARP 请 求 还 尚未 更 新 的 设备 。 在 这 种 
情况 下 ， 直 到 ARP 缓存 清除 为 止 ， 该 设备 都 无 法 进行 通信 。 


延迟 发 送 gratuitous ARP (GARP) 


为 了 解决 这 个 问题 ，keepalived 中 有 一 个 “grap_master_delay” 的 设 定 项 目 。 
keepalived 在 主 节 点 状态 漂移 后 ， 紧 接着 束 会 发 出 gratuitous ARP， 但 在 这 
个 瞬间 大 都 存在 网 络 不 稳定 的 状况 ， 例 如 可 能 流量 太 过 于 集中 造成 无 法 通 
信 。keepalived 为 了 确保 让 通信 目标 能 准确 地 接收 到 更 新 ARP 的 请 求 ， 会 
安排 在 等 竺 数秒 后 再 发 送 gratuitous ARP。 这 个 等 竺 的 时 间 可 以 在 
grap_master_delay 中 设 定 ， 默 认 值 是 5 秒 。 


例如 假设 有 这 样 一 个 系统 : 采用 STP (Spanning Tree Protocol， 生 成 树 协 
议 ) 上 搭建 网 络 ， 在 二 层 交 换 机 宕 机 后 ， 负 载 均衡 器 会 启动 故障 转移 。 在 
二 层 交 换 机 宕 机 的 瞬间 ，STP 的 收敛 (Convergence) 开始 进行 ， 这 可 能 会 
造成 数秒 到 数 十 秒 的 通信 中 断 。 由 于 在 此 期 间 发 送 的 gratuitous ARP 并 没有 
实际 传 到 其 他 点， 因此 可 以 通过 设 定 grap_master_delay 在 收敛 完成 后 再 
发 送 gratuitous ARP。 在 keepalived 的 VRRP 实现 中 ， 因 为 存在 与 RFC 3768 
中 所 定义 的 内 容 不 一 样 的 地 方 ， 因 此 在 实际 网 络 环境 中 使 用 时 ， 有 必要 验 
证 是 否 能 够 正确 局 动 故障 转移 。 


xy 


连 路 管理 协议 。 


| 10 JEEE 802.1D 规定 了 这 和 


1.4.5 ”keepalived 的 元 余 

接 下 来 ， 使 用 keepalived 搭建 出 如 图 1.4.3 所 示 的 系统 。 图 1.4.3 中 的 lvl 与 
lv2 是 在 Linux 中 安装 了 keepalived 的 负载 均衡 右 。 代 但 清单 1.4.1 是 1v1 与 
lv2 的 keepalived.conf 的 设 定 芋 。 表 1.4.1 中 解释 了 各 个 参数 的 意义 。 


|* 代码 清单 1.4.1 中 省 略 了 IPVS (负载 分 流 ) 的 相关 设 定 。 


Iv1 
10.0.0.252/24 10.0.0.253/24 10.0.0.252/24 10.0.0.253/24 
192.168.0.252/24 192.168.0.253/24 192.168.0.252/24 192.168.0.253/24 
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Web 服务 器 Web 服务 器 Web 服务 器 Web 服务 器 
192.168.0.1/24 ( Web1 } 192.168.0.2/24 ( Web2 ) 192.168.0.1/24 { Web1 ) 192.168.0.2/24 ( Web2 ) 


图 1.4.3 ”负载 均衡 器 的 元 余 
代码 清单 1.4.1 VRRP 的 设 定 @ (lvl 的 示例 ) 


vrrp_instance VI { 

state MASTER 
interface etho 
garp_master_delay 5 
virtual_router_id 200 
priority 101 < 在 lv2 中 修改 为 100 
advert_int 1 
authentication { 

auth_type PASS 

auth_pass HIMITSU 


Virtual_ipaddress { 
10.0.0.254/24 dev etho 
192.168.0.254/24 dev eth1 


表 1.4.1 各 参数 的 意义 


启动 keepalived 的 上 时候， 指定 是 作为 MASTER ( 主 节点 ) 启动 还 是 作 
为 BACKUP (备用 节点 ) 启动 


state MASTER 


interface eth0 出 或 接收 VRRP 报 文 的 接 


-i 主 节点 状态 漂移 后 ， 到 再 次 发 送 gratuitous ARP 的 间隔 秒 数 


virtual_router_id | 虚拟 路 由 器 ID。 每 个 VRRP 实例 都 要 所 一 无 二 的 值 ， 可 指 
100 定 的 范围 是 0 到 255 


人 VRRP 优先 顺序 的 设 定 值 。 在 选择 主 节点 的 时 候 ， 该 值 大 的 备用 节点 
了 会 优先 漂移 为 主 节点 


advert_int 1 VRRP 报 文 的 发 送 间 隔 。 以 秒 为 单位 来 指定 。 默 认 值 为 1 秒 


VIP (虚拟 地 址 ) 。 书 写 格式 如 下 ， 可 以 同时 指定 两 个 以 上 的 虚拟 地 
virtual_ ipaddress | 址 
<IPADDR>/<MASK>dev<STRING> 


确认 VIP 

在 lvl 与 lv2 中 启动 了 keepalived 后 ，lvl 就 被 分 配 了 VIP (10.0.0.254 与 
192.168.0. 254) ， 但 这 无 法 通过 ifconfig 命令 来 确认 ， 可 以 通过 如 图 
1.4.4 所 示 的 ip 命令 进行 确认 。 


lv1i:~# ip addr show etho 

2: eth0: <BROADCAST,MULTICAST, UP> mtu 1500 qdisc pfifo_fast qlen 1000 
link/ether xx:xx:xx:xx:xx:xx brd ff:ff:ff:ff:ff:ff 
inet 10.0.0.252/24 brd 10.0.0.255 scope global etho 
inet 10.0.0.254/24 scope global etho 


lv1i:~# ip addr show eth1 

3: eth1: <BROADCAST,MULTICAST, UP> mtu 1500 qdisc pfifo_fast qlen 1000 
link/ether xx:xx:xx:xx:xx:xx brd ff:ff:ff:ff:ff:ff 
inet 192.168.0.252/24 brd 192.168.0.255 scope global eth1 
inet 192.168.0.254/24 scope global eth1 


图 1.4.4 确认 VIP 

确认 VRRP 的 运行 情况 

故障 转移 的 运行 情况 的 确认 结果 可 总 结 如 下 : 

@ 关闭 lv1 - lv2=Master o 

@ 启动 lvl -~ lv1=Master，lv2=Backup o 

@ 将 Iv1 的 eth0 网 线 拔 掉 -> lv1=Backup ，lv2=Master o 


@ 将 lvi 的 eth0 网 线 插 回 - lv1=Master，lv2=Backup o 


日 将 lvl 的 ethl 网 线 拔 掉 ~ lv1=Master，lv2=Backup x 


这 样 看 来 ， 在 上 述 第 日 条 拔 掉 ethl 网 线 时 ， 人 情况 似乎 有 些 奇怪 。 原 本 在 
lvl 的 ethl 链 路 失效 时 ， 应 该 是 lv1=Backup，1lv2=Master 。 


分 离 VRRP 实例 


在 以 上 的 设 定 中 ， 因 为 VRRP 报 文 只 有 eth0 传输 数据 ， 所 以 在 ethl 网 线 拔 
掉 时 自然 无 法 检测 出 异常 。 如 果 想 检测 出 多 个 实例 的 故障 ， 就 要 如 代码 清 
单 1.4.2 所 示 ， 对 每 个 接口 的 VRRP 实例 都 做 出 定义 。 这 里 请 注 
意 “virtual_router id” 这 个 参数 ， 在 照搬 vrrp_instance 代码 块 中 的 代码 时 ， 请 
注意 不 要 忘记 替 黎 相关 的 参数 。 因为 VRRP 实例 是 根据 virtual_router id 区 
分 的 ， 所 以 请 为 每 个 实例 指定 一 个 独一无二 的 值 。 


代码 清单 1.4.2 ”VRRP 的 设 定 @ (lv1 的 示例 ) 


vrrp_sync_group VG { 


vrrp_instance VE { 
state MASTER 
interface etho 
garp_master_delay 5 
Virtual_router_id 200 -为 每 个 VRRP 实 例 指定 独一无二 的 值 
priority 101 -~1V2 中 修改 为 109 
advert_int 1 
authentication { 
auth_type PASS 
auth_pass HIMITSU 


virtual_ ipaddress { 
10.0.0.254/24 dev etho 
} 
} 
vrrp_instance VI { 
state MASTER 
interface eth1 
garp_master_delay 5 
virtual_router_id 201 +。 每 个 VRRP 实 例 独 一 无 二 的 值 
priority 101 -lv2 中 请 将 这 里 修改 为 100 
advert_int 1 
authentication { 
auth_type PASS 
auth_pass HIMITSU 


virtual_ ipaddress { 


192.168.0.254/24 dev eth1 


同步 VRRP 实例 


代码 块 vrrp_sync_group 是 为 了 实现 多 个 VRRP 实例 的 状态 的 同步 所 需要 进 
行 的 设 定 。 例 如 ， 在 对 外 实例 (VE) 作为 备用 市 点 的 情况 下 ， 它 所 联动 的 
对 内 实例 (VI) 也 需要 是 备用 的 。 这 样 在 lvl 中 无 论 eth0 或 ethl 哪 边 的 网 
线 出 现 异 常 ， 也 都 能 够 准确 地 执行 故障 转移 。 


1.4.6 ”keepalived 的 应 用 
ee 使 用 keepalived 的 VRRP 功能 来 实现 故障 转移 的 详情 进行 了 说 


根据 需求 的 不 同 ，keepalived 还 有 其 他 使 用 方法 。 比 如 在 1.1 市 的 图 1.1.6 的 
拓扑 结构 中 ， 如 果 使 用 keepalived 的 话 ， 搭 建 起 来 应 该 束 能 更 加 方便 安全 。 
keepalived 中 还 附带 一 个 - -vrrp 选项 ， 据 此 可 以 独立 地 使 用 VRRP 功能 。 
0 SMTP 服务 硕 开 始 ， 逐 步 加 深 对 宛 余 的 理 

孚 。 


第 2 章 ”优化 服务 器 及 基础 设施 的 拓 
扑 结构 分 
的 实现 


2.1 引入 反 加 代理 一 -Apache 模块 


2.1.1 反 向 代理 入 门 


第 1 章 通 过 引入 负载 均衡 器 ， 实 现 了 Web 服务 器 的 负载 分 流 。 因 为 IPVS 
(LVS) 等 负载 均衡 器 只 在 第 四 层 传送 分 组 ， 因 此 在 该 拓扑 结构 中 ，Web 服 
务 器 依然 直接 应 答 从 客户 端 应 用 软件 发 来 的 请 求 。 


通过 在 负载 均衡 器 与 Web 服务 器 之 间 加 入 被 称 为 反 向 代理 〈Reverse 
Proxy) 的 服务 器 ， 可 以 实现 更 具 弹 性 的 负载 分 流 。 反 向 代理 可 通过 Apache 
的 mod_proxy、mod_proxy_balancer 模块 进行 搭建 。 除 Apache 外 ， 也 可 使 
用 lighttpd 或 Squid 〈 稍 后 讲解 ) 来 进行 搭建 。 


反 疝 代理 从 客户 端 取 得 请 求 (必要 的 话 并 加 以 处 理 ) ， 将 该 请 求 转发 到 适 
当 的 web 服务 器 。Web 服务 器 收 到 请 求 后 会 像 平 时 一 样 进行 处 理 ， 并 将 结 
Oe 问 代 理 。 反 回 代理 获取 结果 后 ， 再 将 该 处 理 结果 的 应 答 返 回 到 客 


如 图 2.1.1， 反 辐 代 理 的 工作 即 为 在 客户 端 与 Web 服务 器 之 间 建 立 起 类 似 代 
理 的 机 制 。 一 般 的 代理 是 代理 处 理 LAN -~ WAN 的 请 求 ， 而 反 向 代理 则 是 
代理 处 理 WAN ~” LAN 的 请 求 ， 因 此 才 被 称 为 “ 反 向 ” (Reverse) 。 


图 2.1.1 反 向 代理 


使 用 反 加 代理， 通过 客户 端 请 求 ， 可 以 将 网 页 的 不 同 元 素 分 配 到 不 同 的 服 
务 絮 专项 处 理 ， 下 面 列举 了 反问 代理 的 具体 功能 : 


。 i HTTP 请 求 的 内 容 来 控制 系统 的 行为 (与 七 层 交 换 机 的 作用 类 
b 


。 优化 系统 整体 的 内 存 使 用 率 
。 缓存 Web 服务 器 的 应 答 数据 
。 使 用 Apache 模块 控制 处 理 规则 
以 下 依次 进行 讲解 。 
2.1.2 根据 HTTP 请 求 的 内 容 来 控制 系统 的 行为 
因为 IPVS 位 于 第 四 层 ， 所 以 无 法 根据 客户 端 所 需要 的 HTTP 请 求 的 内 容 进 


A 。 而 如 果 在 此 引入 反 向 代理 ， 那 么 根据 HTTP 请 求 内 的 网 址 


端 请 求 的 网 址 为 /images/logo.jpg， 则 分 配 到 图 片 专 用 的 服务 器 
。 人 /news， 则 分 配 到 生成 动态 内 容 的 web 服务 


即 可 将 处 理 分 配 到 不 同 的 服务 器 上 进行 (图 2.1.2) 。 


处 理 动态 内 容 的 


Mevws a Web 服务 器 
/images/logo.) 
EN 图 片 服务 器 


图 2.1.2 反 向 代理 
使 用 Apache 搭建 反 癌 代理 的 情况 下 ， 处 理 的 分 配 使 用 的 是 mod_rewrite 的 
RewriteRule 功能 。 通 过 使 用 mod_rewrite 进行 控制 ， 可 以 获得 很 多 强大 的 
功能 ， 例 如 : 

。 查 看 客户 端 IP 地 址 ， 仅 允许 特定 的 IP 地 址 访问 服务 器 


。 通过 查看 客户 端的 User-Agent 〈 用 户 代理 ) ，Web 服务 器 可 根据 客户 
端的 User-Agent 对 客户 端 返回 合适 的 数据 


。 将 /hoge/foo/bar 修改 为 /hoge?foo=bar， 再 请 求 Web 服务 器 
以 上 功能 应 该 在 哪里 使 用 呢 ? 以 下 将 进行 说 明 。 
根据 IP 地 址 进行 控制 
通过 IP 地 址 进行 控制 可 以 屏蔽 来 自 恶 意 主 机 的 请 求 。 此 外 ， 在 包含 面向 管 
理 人 员 的 页 面 的 网 站 中 ， 也 可 同时 通过 IP 地 址 及 网 址 进行 控制 ， 以 限制 管 
理 人 员 的 页 面 仅 能 通过 特定 的 了 P 进行 访问 。 
根据 User-Agent 进行 控制 


User-Agent 的 控制 是 为 了 应 对 Googlebot、Yahoo! Slurp 等 搜索 引擎 机 絮 人 
(Web Spider， 也 称 蜘蛛 ) 而 存在 的 。 


比如 ， 假 设 在 面向 用 户 的 网 页 中 存在 难以 缓存 的 动态 页 面 (根据 用 户 显 示 
用 户 名 的 页 面 等 ) ， 而 面 问 搜索 引擎 机 右 人 则 没有 必要 显示 这 些 内 容 ， 那 
该 页 面 束 可 以 被 缓存 。 通 过 查看 User-Agent 的 信息 ， 若 是 搜索 引擎 机 絮 人 
的 User-Agent， 则 可 以 直 接 经 由 缓存 服务 器 来 处 理 该 请 求 8 


网 址 的 重 写 


为 了 使 网 站 整体 的 层级 结构 更 清晰 ， 我 们 有 必要 使 网 址 让 用 户 看 起 来 更 简 
党 明了 。 原 本 客户 端的 网 页 浏 咒 右 需要 文 持 动态 网 页 ， 实 现 “ 酶 网 址 ”1 后 ， 
在 不 支持 动态 网 页 的 旧版 浏览 器 中 也 可 浏览 该 网 页 。 这 是 因为 在 反 向 代理 
中 ， 对 该 网 址 进行 了 分 解 重 写 ， 使 得 旧版 浏览 器 能 够 识别 这 些 伪 静 态 (将 
动态 网 址 重 写 为 静态 ) 的 网 址 。 在 旧版 浏览 夯 提 交 此 类 链接 时 ， 将 伪 静 仿 
的 网 址 请 求 首 移 提 区 给 反 回 代理 ， 由 反 回 代理 将 伪 静 态 的 网 址 修改 为 动态 
网 址 后 ， 再 发 给 动态 服务 右 进 行 处 理 。 


1 例如 比 起 http://b.hatena.ne jp/bookmark. cgi?user=naoya&xtag1=perl&tag=2=cpan 这 样 的 网 址 ， 
http://b.hatena.ne.jp/naoya/perl/cpan 这 样 的 网 址 更 加 简洁 整齐 、 更 酷 ， 所 以 称 为 酷 网 址 。 详 情 请 参考 
以 下 链接 。 

URL http://www.w3.org/Provider/Style/URI.html 


2.1.3 ”优化 系统 整体 的 内 存 使 用 率 


在 返回 动态 内 容 的 Web 服务 器 中 (一 般 称 其 为 AP 服务 器 ) ， 通 常会 将 应 
用 程序 常 驻 在 内 存 中 ， 以 避免 在 启动 应 用 程序 时 产生 间接 性 能 成 本 

(Overhead) 。 例 如 用 Java 编写 的 程序 ， 初 次 启动 确实 很 花 时 间 ， 若 初次 
局 动 承 常 驻 内 存 ， 以 后 即 可 省 去 启动 良 费 的 时 间 。 在 Perl 或 PHP 中， 通过 
将 mod_perl、mod_php 模块 部 署 到 Web 服务 器 ， 即 可 加 快 应 用 软件 的 速 
度 ， 这 与 上 述 常 驻 内 存 的 原理 相同 。 在 FastCGI 中 ， 也 大 致使 用 了 同样 的 
原理 实现 应 用 的 加 速 


在 AP 服务 响 加 速 时 ， 需 要 大 量 的 内 存 空 间 。 与 只 返回 静态 内 容 的 Web 服 
比 ， 返 回 动态 内 容 的 AP 服务 器 通 汝 需要 消耗 数 倍 甚至 数 十 倍 的 内 存 
2 站 


一 般 AP 服务 器 在 处 理 客户 端的 单个 请 求 时 ， 会 将 其 分 配 到 单个 进程 或 单个 
线程 进行 处 理 。 在 进程 /线程 中 ， 各 进程 /线程 之 间 都 是 独立 运行 的 。 这 样 
i 贷 源 冲突 的 问题 ， 应 用 软件 的 设 
计 也 就 更 简 


然而 男 一 方面 ， 在 AP 服务 器 对 单个 请 求 使 用 单个 进程 / 线程 来 应 答 时 ， 大 
需 返 回 图 片 及 JavaScript、CSS 等 静态 内 容 ， 即 原样 返回 文件 中 的 内 容 ， 可 
以 将 此 类 文件 分 配 到 静态 服务 邵 进 行 处 理 ， 以 降低 AP 服务 占 的 负载 。 


例 : 


动态 页 面 中 的 请 求 详情 


假设 在 一 个 动态 生成 的 HTML 页 面 中 使 用 了 30 张 图 片 。 殉 像 *Hatena" 网 站 
的 主页 “一样 。 该 页 面 是 动态 生成 的 。 


| 2 URL http:/www.hatena.ne.jp/ 


在 对 该 页 面 的 请 求 中 ， 只 有 初次 请 求 动态 生成 了 HTML 页 面 ， 客 户 端 的 浏 
览 器 下 载 了 该 页 面 。 浏 览 器 将 此 HTML 解析 后 ， 向 服务 器 请 求 了 需要 的 图 
瞩 及 脚本 文件 ， 共 计 1 个 动态 请 求 +30 个 静态 请 求 。 


所 有 内 容 均 由 AP 服务 器 应 答 的 情况 


1+30 个 请 求全 由 AP 服务 器 进行 应 答 的 情况 下 ， 虽 然 大 部 分 都 是 返回 
静态 的 内 容 ， 但 为 了 处 理 这 唯一 一 个 动态 的 请 求 ， 其 余 30 个 静 仿 请 求 
的 应 答 也 会 受到 拖 素 ， 消 耗 大 量 的 内 存 。 这 是 因为 独 片 及 动态 内 容 的 
每 个 请 求 都 需要 一 个 进程 / 线程 进行 应 答 (图 2.1.3) 。 


请 求 动态 内 容 。 请 求 静态 内 容 


i@@O@O@O@© 
’ AP 服务 器 


消耗 内 存 较 多 的 进程 / 线程 
图 2.1.3 所 有 的 内 容 均 由 AP 服务 器 应 答 的 情况 


分 配 到 不 同 服务 器 的 情况 


在 此 将 处 理 分 配 到 不 同 的 服务 器 上 进行 ， 用 web 服务 器 返回 静态 内 
容 ， 用 AP 服务 器 生成 动态 内 容 (图 2.1.4) 。 这 样 一 来 ， 静 态 内 容 就 
可 以 由 仅 消 耗 少 量 内 存 的 Web 服务 器 来 应 答 ，AP 服务 器 则 只 对 应 用 程 


序 的 动态 内 容 应 答 ， 不 仅 提 高 了 系统 整体 的 内 存 使 用 率 ， 也 提高 了 能 
够 并 发 处 理 的 请 求 数 。 


PETETIETIT sa 忆 人 理 bor 处 理 静 态 内 容 的 
请 求 静 态 内 容 Web 服务 器 


图 2.1.4 分 配 到 两 台 服 务 器 的 情况 


交 由 两 台 服 务 器 分 别处 理 是 个 很 好 的 选择 ， 但 如 何 将 静态 内 容 、 动 态 
内 容 分 离 到 不 同 的 服务 器 呢 ? 这 里 就 该 请 出 反 向 代理 了。 


o 将 images 目录 下 及 CSS 等 静态 内 容 的 网 址 交 由 Web 服务 器 
。 将 除 此 以 外 的 动态 内 容 的 网 址 交 由 AP 服务 器 


即 针对 网 址 的 内 容 修 改 分 配 的 目的 地 。 可 以 看 出 反 向 代理 的 行为 就 相 
当 于 七 层 交 换 机 的 处 理 。 


常常 我 们 也 会 将 反 向 代理 作为 静态 服务 器 来 使 用 (由 反 疝 代理 直接 返 
回 静态 内 容 ， 无 需 准 备 其 他 的 服务 器 ) ， 就 像 图 2.1.5 那样 将 静态 内 容 
交 由 反 辐 代理 目 身 直接 退回 


请 求 静 态 内 容 
本 
记 | aas" 
> [人 
请 求 动态 内 容 


图 2.1.5 一 般 的 结构 
2.1.4 缓存 Web 服务 器 的 应 答 数据 


反 向 代理 分 离 出 了 AP 服务 器 ， 为 AP 服务 器 提供 了 一 个 缓冲 ， 这 是 非常 关 
键 的 一 点 。 ; 笠 别 是 要 使 用 HTTP 的 Keep-Alive 功能 时 ， 反 向 代理 的 存在 就 
显得 尤为 重要 。 


HTTP 的 Keep-Alive 


HTTP 中 有 一 个 Kop Mve 功能 ， 在 茶 个 客户 端 一 次 性 将 多 个 内 容 从 同一 
台 服 务 絮 读 取 时 ， 经 常会 用 到 该 功能 。 以 之 前 举 出 的 显示 了 30 个 图 片 的 

HTTP 页 面 为 例 ， 通 常 每 个 HITP 请 求 都 需要 与 服务 器 重复 进行 连接 、 切 
断 、 连 接 .…… 的 操作 ， 处 理性 能 并 不 高 。 知 在 第 一 次 请 求 完 成 后 保持 连接 
不 切断 ， 当 再 次 请 求 时 ， 直 接 使 用 以 前 建立 过 的 连接 ， 即 可 实现 用 一 次 连 
接 来 处 理 更 多 的 请 求 。 


要 实现 该 功能 就 需要 使 用 Keep- -Alive。 只 需 在 服务 器 中 设 定好 Keep-Alive， 
浏 蚁 器 即 可 根据 HTTP 头 判 断 是 否 局 用 Rep -Alive。 启 用 时 ， 浏 唤 絮 依照 
Keep-Alive 的 规定 保持 与 服务 器 的 连接 ， 只 需 一 个 连接 就 可 实现 多 个 文件 
的 下 载 。 事 实 上 与 关闭 Keep-Alive 的 服务 器 相 比 ， 开启 该 功能 的 服务 器 的 
下 载 速度 明显 会 快 一 些 。 


使 用 Keep-Alive 保持 连接 上 时， 理论 上 会 加 重 Web 服务 絮 的 负载 。 具 体 来 
说 ， 从 收 到 某 个 特定 的 客户 端的 请 求 开始 ， 在 一 定时 间 内 ， 进 程 /线程 会 被 
占用 以 应 答 客户 端的 请 求 3。 


3 lighttpd 等 采用 事件 模式 的 Web 服务 器 则 并 不 一 定 如 此 。 
例 : 内 存 消耗 与 Keep-Alive 的 开启 / 关闭 
首先 从 内 存 消耗 的 角度 来 考虑 该 情况 。 在 每 个 进程 消耗 较 多 内 存 的 AP 服务 
器 中 ， 一 台 主 机 能 启动 的 最 大 进程 数 仅 有 50 ~ 100 个 左右 。 若 不 使 用 反 辣 


代理 而 开局 Keep-Alive， 那 么 在 这 为 数 不 多 的 50 ~ 100 个 进程 中 ， 大 部 分 
都 会 为 保持 Keep-Alive 的 连接 而 被 消耗 掉 (图 2.1.6) 。 


Keep-Alive 


二 
户 病 


本 内 存 较 多 的 进程 / 线程 


图 2.1.6 为 保持 Keep-Alive 的 连接 而 使 进程 被 消耗 


若 Keep-Alive 关闭 ， 从 客户 端 就 可 明显 感觉 到 浏 蜗 速 度 变 慢 。 这 不 是 我 们 
想 要 的 结果 。 


下 面 考虑 一 下 增设 反 向 代理 的 情况 。 通 常 作 为 反 向 代理 工作 的 Web 服务 器 
中 ， 由 于 每 个 进程 消耗 的 内 存 并 不 多 ， 一 台 主 机 可 以 启动 1,000 ~ 10,000 
个 进程 。 这 种 情况 下 ， 即 便 Keep-Alive 为 了 保持 连接 而 消耗 一 定 程度 的 进 
程 ， 也 不 会 增 大 负载 。 然 后 ， 只 在 客户 端 与 反问 代理 间 开 启 Keep-Alive， 
反 向 代理 与 后 端的 AP 服务 器 间 则 关闭 Keep-Alive (图 2.1.7) 


消耗 内 存 较 少 的 进程 /线程 


Keep-Alive 


消耗 内 存 较 多 的 进程 / 线程 


图 2.1.7 Keep-Alive 的 开启 / 关闭 


这 样 即使 AP 服务 句 的 进程 数 较 少 ， 在 一 个 请 求 结束 后 也 可 立刻 应 管 别 的 请 
求 。 整 体 看 来 能 够 并 发 处 理 的 请 求 数 有 所 增加 ， 吞 吐 量 的 承载 能 力也 显著 
提高 了 。 因 为 反 向 代理 承担 了 与 客户 端 保持 连接 的 任务 ， 而 消耗 内 存 较 多 
的 AP 服务 占 则 不 用 承担 该 任务 ， 照 此 即 可 搭建 民 好 的 服务 器 拓扑 结构 。 


2.1.5 ”使 用 Apache 模块 控制 处 理 规则 


在 反问 代理 使 用 Apache 搭建 的 情况 下 ， 该 反 向 代理 可 以 通过 利用 Apache 
的 模块 ， 在 程序 中 控制 HTTP 请 求 的 前 端 / 后 端的 行为 。 


例如 ，Apache2.2 的 源码 中 附带 了 mod_deflate 模块 ， 该 模块 可 将 网 页 内 容 
使 用 gzip 压缩 。 大 在 反 回 代理 中 使 用 此 模块 ， 残 可 以 将 后 端 鸭 AP 服务 妖 
返回 的 HITP 应 答 进 行 压缩 ， 然 后 再 通过 反 向 代理 返回 客户 端 (图 
i We i 0 
SSL 加 和 密 处 理 。 


图 2.1.8 ”使 用 mod_deflate 模块 的 情况 

另外 ，Apache2.2 中 还 有 用 来 应 对 DoS 攻击 的 mod_dosdetector 模块 4， 该 
模块 可 在 某 个 客户 问 发 出 过 多 请 求 时 ， 临 时 隔离 这 些 请 求 。 大 将 其 合理 设 
置 在 反 回 代理 中 ， 即 可 防止 后 端的 AP 服务 器 因 承 受过 多 的 请 求 而 超出 负 
载 o 


| 4 URL http://sourceforge.net/projects/moddosdetector/ 


除 Apache 外 ，lighttpd 等 第 三 方 的 模块 及 插件 也 有 很 多 ， 在 反 向 代理 中 使 
用 这 些 功能 ， 同 样 会 为 生产 环境 增光 添彩 。 


增设 反 向 代理 的 判断 

在 使 用 AP 服务 器 发 布 动态 内 容 的 情况 下 ， 反 辐 代 理 的 存在 与 否 会 对 系统 的 
灵活 性 产生 很 大 的 影响 。 即 使 具有 一 台 主 机 ， 通 过 在 该 主机 内 同时 运行 反 
回 代理 与 AP 服务 器 ， 将 “静态 内 容 的 发 布 工 作 与 后 端 AP 服务 器 ”分 离 进 
行 ， 也 可 提高 资源 的 使 用 效率 。 

所 以 真 的 找 不 到 不 增设 反 向 代理 的 理由 啊 ! 

2.1.6 ”增设 反 向 代理 


以 下 对 使 用 Apache 搭建 反 回 代理 的 方法 ， 以 及 所 搭建 的 反 回 代理 的 各 种 设 
定 进 行 讲解 。 

使 用 Apache 2.2 

搭建 反 向 代理 最 好 使 用 稳定 版 的 Apache 2.22? 。 另 外 ， 鉴 于 prefork 会 为 每 个 


客户 端 分 配 一 个 进程 ,为 了 让 反 向 代理 尽 可 能 地 承受 更 多 的 并 发 量 ， 建 议 
使 用 “worker 模式 ”， 因 为 该 模式 只 需 为 每 个 客户 端 分 配 一 个 线程 即 可 。 


|5 本 节 中 使 用 了 CentOS 4.4 和 Apache 2.2.4。 


以 worker 模式 启动 httpd 
在 Red Hat Enterprise Linux 5 及 CentOS 5 的 标准 软件 包 内 默认 附带 了 


Apache 2.2， 一 般 无 需 男 外 安装 。 在 Rad Hat 中 可 以 选择 服务 器 启动 时 运行 
的 软件 包 模 式 ， 只 需 在 /etc/sysconfig/httpd 中 加 入 一 行 : 


HTTPD=/usSr/sbin/httpd.worker 


即 可 实现 以 worker 模式 启动 httpd 。 

httpd.conf 的 配置 

以 下 讲解 将 Apache 作为 反 向 代理 运行 所 需要 进行 的 准备 工作 。Apache 服务 
器 的 一 个 重要 特性 就 是 其 模块 化 的 结构 ， 即 DSO (Dynamic Shared 

Object， 动 态 共享 对 象 ) 的 特性 。 

设 定 最 大 进程 / 线程 数 

首先 设 定 worker 的 进程 和 线程 数 。 


StartServers 2 


MaxSpareThreads 75 
ThreadsPerChild 25 
MaxRequestsPerChild 0 


默认 的 httpd.conf 中 全 局 指令 (Global Directives) 的 配置 如 上 所 示 ， 该 设 定 
参数 均 为 保守 值 。 因 为 我 们 希望 反 向 代理 能 够 承受 较 高 的 负载 以 保护 后 端 
和 以 确保 反 回 代理 能 够 同时 处 理 足 够 
多 的 请 求 数 。 


以 上 需要 关注 的 参数 为 MaxClients 及 ThreadsPerChild 。 使 用 worker 模式 
的 情况 下 ，Apache 会 局 动 多 个 子 进 程 ， 并 在 各 个 子 进 程 中 生成 多 个 线程 ， 
这 样 一 来 束 能 处 理 可 观 的 请 求 量 了 。 


此 处 的 ThreadsPerChild 控制 各 个 进程 中 的 线程 数 ， 这 里 子 进程 的 最 大 值 
( 即 子 进程 的 数量 ) 就 是 : 


MaxClients = ThreadsPerChild 


MaxClients 决定 了 能 够 同时 处理 的 客户 剖 访 问 总 数 。 例 如 在 前 文 那样 的 设 
定 的 情况 下 ， 即 为 


。 最 大 进程 数 : 6 
。 单位 进程 的 最 大 线程 数 : 25 
。 所 支持 的 客户 端 并 发 数 : 6x25 = 150 


人 2GB 一 4GB 的 内 存 ， 即 可 承受 1,000 ~ 10,000 左右 的 并 发 量 。 例 
0， 


。 最 大 进程 数 : 32 
。 单位 进程 的 最 大 线程 数 : 128 
。 所 支持 的 客户 端 并 发 数 : 32x128 = 4096 
若 需 实现 以 上 情况 ， 可 按照 以 下 的 具体 参数 进行 设 定 : 


StartServers 2 
ServerLimit 32 -新 增 
ThreadLimit 128 -新 增 
MaxClients 4096 < 修改 
MinSpareThreads 25 


MaxSpareThreads 75 
ThreadsPerChild 128 
MaxRequestsPerChild 0 


可 以 看 出 新 增 了 ServerLimit 及 ThreadLimit 这 两 个 项 目 。 
ServerLimit/ThreadLimit 的 设 定 决定 了 最 大 进程 / 线程 数 ，MaxClients 及 
ThreadsPerChild 是 一 组 与 ServerLimit/ThreadLimit 相对 应 的 设 定 项 目 。 因 为 
ServerLimit 的 默认 值 是 16，ThreadLimit 的 默认 值 是 64， 所 以 在 需要 实现 比 
该 默认 值 高 的 进程 /线程 数 的 情况 下 ， 必 须 明 确 指定 这 两 个 项 目 。 


ServerLimit/ThreadLimit 与 内 存 的 关系 


然而 ， 既 然 已 经 有 MaxClients 及 ThreadsPerChild 决定 最 大 进程 / 线程 
数 ， 那 为 什么 还 要 设置 另 一 组 参数 ServerLimit 及 ThreadLimit 呢 ? 这 是 
因为 MaxClients 及 ThreadsPerChild 是 服务 器 方 有 关 动 态 资 源 消耗 的 设 
定 项 目 ， 该 值 的 高 低 对 服务 器 的 资源 消耗 量 没有 有 影响。 而 ServerLimit 
及 ThreadLimit 则 会 影响 Apache 所 确保 的 共享 内 存 的 大 小 。 若 将 这 些 
项 目的 设 定 值 设 定 得 比 必要 值 还 高 ， 就 会 导致 内 存 空 间 的 良 费 。 

此 ， 铬 进程 数 / 线程 数 的 目标 设 定 值 超过 了 ServerLimit 16 及 
ThreadLimit 64， 束 有 必要 仔细 其 酌 以 确保 合理 设 定 。 


进程 / 线程 的 内 存 使 用 量 与 局 动 的 模块 种 类 有 关 。 由 于 系统 分 配 内 存 给 
Apache 时 需要 看 具体 环境 ， 因 此 无 法 决定 该 设 定 值 。 此 处 的 配置 仪 做 
参考 。 至 于 在 实际 使 用 的 环境 中 如 何 设 定 上 限 值 ， 还 需 具 体 评 佑 进程 / 
内 存 使 用 量 。 关 于 这 部 分 内 容 ， 我 们 将 在 第 4 章 进 行 详 细 讲 

有 。 


设 定 某 个 Web 服务 器 的 最 大 进程 / 线程 数 时 ， 应 该 确保 该 主机 在 达到 
访问 上 限时 不 会 启用 Linux 的 SWAP 交换 区 ， 即 : 


。 系统 或 Web 服务 器 以 外 的 软件 常 驻 所 使 用 的 内 存量 
。 Web 服务 器 的 进程 / 线程 数 达 到 上 限时 ， 服 务 器 消耗 的 总 内 存量 


计算 以 上 两 者 的 总 和 ， 并 兼顾 实际 可 使 用 的 内 存 总 量 进 行 设 定 。 关 于 
识别 单位 进程 /线程 的 内 存 使 用 量 的 方法 ， 将 在 第 4 章 详 细 讲 解 。 


Keep-Alive 的 配置 


如 前 所 述 ， 开 局 反 回 代理 的 Keep-Alive 并 关闭 AP 服务 右 的 Keep-Alive 是 
关键 。 对 全 局 指令 做 出 如 下 设 定 即 可 开局 Apache 的 Keep-Alive 。 


KeepAlive On 
MaxKeepAliveRequests 100 
KeepAliveTimeout 5 


以 上 设 定 指示 了 下 面 的 内 容 。 
。 开启 Keep-Alive 


。 指定 Keep-Alive 所 处 理 的 最 大 请 求 数 为 100 


。 指定 Keep-Alive 的 超时 数 (KeepAliveTimeout， 与 客户 端 保持 连接 的 
时 间 ) 为 5 秒 * 


KeepAlive Timeout 的 默认 时 间 为 15 秒 。 在 一 般 的 Web 网 站 中 ， 应 该 可 以 
在 5 秒 内 返回 响应 ， 寿 该 值 偏 大， 仪 进程 /线程 的 Keep-Alive 束 会 占用 很 
多 时 间 ， 导 致 服务 器 的 资源 被 大 量 消耗 。 所 以 将 默认 值 设 定 为 比 15 秒 更 小 
的 数字 不 会 有 什么 间 题 。 


载 入 必要 的 模块 


和 。 搭建 反 向 代理 所 需 的 基本 的 模块 有 


e。 mod rewrite 
。 mod_proxy 
。 mod proxy_http 
添加 以 上 模块 时 ， 还 需 载 入 “mod_alias” 模 块 。 


LoadModule alias module modules/mod_ alias.so 
LoadModule rewrite module modules/mod_rewrite.so 
LoadModule proxy_module modules/mod_proxy.so 


LoadModule proxy_http_module modules/mod_proxy_http.so 


A ， 即 可 使 用 RewriteRule 及 RewriteRule 中 的 Proxy 、Alias 
等 指令 。 


默认 情况 下 ，Apache 安装 包 的 httpd.conf 中 载 入 了 很 多 模块 。 由 于 载 入 不 
人 Apache 的 内 存 消耗 量 ， 因 此 请 尽量 减少 不 必要 的 模块 的 
0 pe 


设 定 RewriteRule 


. .0 ServerRoot 及 权限 日 志 等 的 设 定 后 最 后 就 要 设 定 RewriteRule 
是 搭建 反 回 代理 的 核心 。 


5 关于 Apache 的 基本 设 定 ， 请 参考 Apache 的 使 用 手册 。 


这 里 考虑 进行 以 下 设 定 : 


。 当 访问 /image 目录 下 的 图 片 时 ， 此 类 网 址 由 反 向 代理 自身 处 理 。 所 有 
图 片 都 在 反 回 代理 主机 内 的 /path/to/images/ 目 录 下 存放 


。 对 /css、/js 也 做 以 上 处 理 

。 除 此 以 外 的 动态 内 容 的 处 理 ， 请 求 AP 服务 器 192.168.0.100 进行 代理 
该 设 定 如 代码 清单 2.1.1 所 示 。 
代码 清单 2.1.1 RewriteRule 等 的 设 定 


Listen 80 
<VirtualHost *:80> 
ServerName naoya.hatena.ne.jp 


Alias /images/ "/path/to/images/" 
Alias /css/ "/path/to/css/" 
Alias /js/ "/path/to/js/" 


RewriteEngine on 

RewriteRule 人 ^/(images|lcss|js)/ - [L] -© 

RewriteRule 人 ^/(.*)$ http://192.168.0.100/$1 [P,L] -© 
</VirtualHost> 


请 看 RewriteRule 的 内 容 。RewriteRule 将 请 求 的 网 址 进行 模式 匹配 (Pattern 
Match) ， 若 匹配 成 功 ， 则 将 指示 其 做 出 相应 的 处 理 。RewriteRule 可 以 通过 
正则 表达 式 定 义 。 在 代码 清单 2.1.1 中 ， @ 处 的 配置 原则 是 : 


无 论 遇 到 任何 包含 /images/、/css/、/js/ 的 URL ， 都 执行 匹配 的 动作 ([L] 


是 RewriteRule 的 匹配 模式 在 此 结束 的 意思 ) ， 默 认 通 过 内 容 处 理 器 
(ContentHandler) 返回 内 容 


从 默认 的 内 容 处 理 器 返回 静态 文件 ， 根 据 URL 查找 响应 内 容 并 返回 到 客户 
端 ， 这 是 Apache 的 一 贯 动作 。 


根据 该 配置 ， 当 客户 端 发 出 请 求 时 ， 若 该 请 求 为 /images/profile/naoya.png， 
本 地 的 /path/to/images/profile/naoya.png 职 会 被 返回 到 客户 端 。 


根据 以 上 内 容 做 出 代码 清单 2.1.1 的 @ 处 的 设 定 ， 即 : 


对 全 部 URL 的 请 求 均 由 192.168.0.100 进行 代理 


如 此 便 设 定 完毕 。 这 时 如 果 通过 浏览 器 访问 反 向 代理 所 监听 的 端口 ， 就 会 
显示 192.168.0.100 返回 的 内 容 ， 束 像 是 AP 服务 器 做 出 了 应 答 。 


2.1.7 ”进一步 对 RewriteRule 进行 设置 
以 下 逐步 介绍 RewriteRule 的 设 定 例子 。 
禁止 来 自 特 定 主机 的 请 求 


例如 ， 禁 止 来 自 特定 IP 地 址 的 请 求 ， 使 其 返回 403 错误 代码 的 设 定 如 代码 
清单 2.1.2 所 示 。 


代码 清单 2.1.2 设 定 示 例 1 


RewriteEngine on 


# 若是 192.168.0.200 的 请 求 ， 则 向 客户 端 返回 403 
RewriteCond %{REMOTE_ADDR} ^192\.168\.0\.200$ 
RewriteRule .* - [F,L] 


# 反 向 代理 的 设 定 
RewriteRule 人 ^/(images|css|js)/ - [L] 
RewriteRule 人 ^/(.*)$ http://192.168.0.100/$1 [P,L] 


在 代理 AP 服务 器 之 前 ， 通 过 进行 条 件 判 断 的 RewriteCond 查看 
REMOTE_ADDR， 即 可 对 特定 地 址 返回 403 信息 ”。 


7 使 用 RewriteRule 的 标志 [EL]。 


对 于 来 自 搜索 引擎 机 器 人 的 请 求 使 用 缓存 服务 器 

假设 使 用 Squid 等 架设 的 HTTP 缓存 服务 器 被 配置 在 192.168.0.150。 若 想 要 
针对 来 自 搜索 引擎 机 器 人 的 请 求 进行 特殊 配置 ， 也 就 是 对 特定 User-Agent 
的 请 求 直接 返回 已 经 缓存 的 内 容 ， 可 以 如 代码 清单 2.1.3 那样 进行 设 定 。 


代码 清单 2.1.3” 设 定 示 例 2 


# 为 了 使 SetEnvIf 指 令 生 效 ， 需 要 读 取 mod_setenvif 
LoadModule setenvif module modules/mod_setenvif.so 


# 若 User-Agent 中 包括 “Yahoo! Slurp” 或 “Go0glebot” 
# 则 环境 变量 IsRobot 为 真 
SetEnvIf User-Agent "Yahoo! Slurp" IsRobot 
SetEnvIf User-Agent "Googlebot" IsRobot 


RewriteEngine on 


# 若 环境 变量 为 真 ， 则 代理 缓存 服务 器 
RewriteCond %{ENV:IsRobot} .+ 
RewriteRule 人 ^/(.*)$ http://192.168.0.150/$1 [P,L] 


# 除 此 以 外 的 情况 下 按照 如 下 方式 处 理 
RewriteRule 人 ^/(images|css|js)/ - [L] 
RewriteRule 人 ^/(.*)$ http://192.168.0.100/$1 [P,L] 


使 用 mod_setenvif 根据 User-Agent 的 文本 判断 是 否 为 来 自 搜索 引擎 机 器 人 
的 访问 ， 若 判定 确实 为 搜索 引擎 机 器 人 ， 则 代理 到 缓存 服务 器 。 


Apache 的 mod_rewrite 可 与 其 他 的 模块 等 配合 使 用 ， 实 现 弹 性 化 的 强大 设 


定 。 因 此 只 要 满足 RewriteRule 描述 的 条 件 ， 束 总 能 分 配 到 其 他 服务 右 。 


2.1.8 ”使 用 mod_proxy_balancer 向 多 台 主 机 分 流 


在 此 讨论 当 有 多 全 后 端 AP 服务 器 的 情况 下 该 采用 哪 种 拓扑 结构 。 下 面 有 几 
个 方案 可 供 思 考 : 


Se AP 服务 器 总 是 成 对 配置 。 将 请 求 从 特定 代理 传递 到 特定 AP 


@ 使 用 mod_proxy_balancer， 将 请 求 从 特定 反 回 代理 分 配 到 多 个 AP 服务 
器 (图 2.1.9) 


@ 在 反 向 代理 与 AP 服务 器 之 间 插 入 LVS 


图 2.1.9 使 用 mod_proxy_balancer 


在 上 述 内 容 中 ，@ 不 能 说 是 明智 的 选择 。 反 回 代 理 肯定 比 AP 服务 器 的 次 
源 消耗 少 ， 而 且 也 需要 它 来 承担 那些 即使 资源 消耗 小 也 能 正常 进行 的 工 
作 。 因 此 在 通常 的 系统 中 ， 出 于 对 见 余 的 考量 ， 设 置 两 台 反 癌 代 理 已 经 足 
够 。 但 受 负载 情况 的 影响 ， 很 多 情况 下 仅 有 两 台 后 端 AP 服务 器 是 不 够 的 。 
例如 在 本 书 执笔 时 ，Hatena 书签 ?就 是 由 两 台 反 向 代理 与 11 台 AP 服务 器 
组 成 的 拓扑 结构 。 


8 URL http://b.hatena.ne.jp/ 


由 于 反问 代理 与 AP 服务 右 的 资源 消耗 不 同 ， 铬 是 成 对 配置 ， 反 癌 代 理 方 面 
势必 会 造成 无 端的 资源 浪费 。 


@ 中 Apache 的 mod_proxy_balancer 这 一 模块 的 作用 是 ， 在 进行 反 同 代理 
上 时， 将 请 求 通过 某 种 算法 分 配给 代理 目标 的 多 台 主 机 。 如 采 代 理 的 目标 主 
机 没有 办 法 返回 应 答 ， 则 会 局 动 故障 转移 ， 使 请 求 不 会 代理 给 该 主机 ， 即 
可 实现 代理 到 后 端的 请 求 总 是 会 分 配 到 正常 工作 的 主机 。 利 用 好 该 模块 的 
这 点 特征 是 一 个 方法 。 


另 一 个 方法 是 ， 在 反 回 代理 与 AP 服务 器 之 间 插 入 LVS+keepalived， 即 目 
。 这 确实 是 很 实用 的 方法 ， 根 据 笔 者 个 人 的 使 用 感受 ，LVS 的 故障 转移 功 
能 并 不 输 于 mod_proxy_balancer。 另 外 在 LVS+keepalived 与 

mod_proxy_balancer 的 较量 中 ，LVS+keepalived 的 情况 下 负载 分 流 的 逻辑 更 
容易 调整 ， 而 且 也 可 以 通过 命令 行进 行 管理 ， 相 当 方 便 。 


但 LVS+keepalived 需要 事先 增加 若干 个 服务 器 。 以 下 以 想 要 进行 简易 的 负 
载 分 流 为 例 ， 讲 解 mod_proxy_balancer 的 使 用 方法 。 


mod_proxy_balancer 的 使 用 示例 
使 用 mod_proxy_balancer 搭建 反 向 代理 是 很 简单 的 。 
。 加 载 mod_proxy_balancer 模块 3 
。 在 BalancerMember 指令 中 定义 分 流 目 的 地 的 主机 一 览 表 


。 对 反 向 代理 进行 RewriteRule 设 定 (规则 重 写 设 定 ) 。 在 此 可 使 用 
balancer://Scheme 的 形式 


9 mod_proxy_balancer 是 Apache 2.2 中 的 标准 功能 。 


假设 AP 服务 器 有 3 台 ，IP 地 址 是 192.168.0.100 ~ 102。 这 里 的 httpd.conf 
的 设 定 如 代码 清单 2.1.4 所 示 。 


代码 清单 2.1.4 ”通过 mod_proxy_balancer 搭建 反 向 代理 的 设 定 示例 


# 加 载 nod_proxy_balancer 模 块 
LoadModule proxy_balancer_module modules/mod_proxy_balancer.so 


# 定义 分 流 目 的 地 的 主机 一 筑 

<Proxy balancer://backend> 
BalancerMember http://192.168.0.100 loadfactor=10 
BalancerMember http://192.168.0.101 loadfactor=10 
BalancerMember http://192.168.0.102 loadfactor=10 

</Proxy> 


Listen 80 
<VirtualHost *:80> 
ServerName naoya.hatena.ne.jp 


Alias /images/ "/path/to/images/" 
Alias /css/ "/path/to/css/" 
Alias /js/ "/path/to/js/" 


# 设 定 反 向 代理 

RewriteEngine on 

RewriteRule 人 ^/(images|css|js)/ - [LI] 

RewriteRule ^/(.*)$ balancer://backend/$1 [P,L] -©@ 
</VirtualHost> 


请 看 代码 清单 2.1.4。 之 前 的 例子 中 都 是 直接 写 http://192.168.0.100/$1 与 AP 
服务 器 的 网 址 ， 而 本 次 则 使 用 “balancer ://Scheme ”这 种 形式 。 当 表述 
为 balancer://backend 时 ， 每 个 请 求 都 会 选择 上 层 中 定义 的 
BalancerMember 中 的 一 台 。 人 至 于 具体 为 哪个 服务 姻 ， 则 与 BalancerMember 
中 定义 的 loadfactor 的 值 有 关 。1oadfactor 的 值 越 大 ， 则 被 分 配 的 概率 越 高 。 
， 单 2.1.4 那样 ， 设 定 loadfactor 均 为 同一 值 的 话 ， 即 可 获得 均等 的 
人 日 LX 9 


mod_proxy_balancer 中 还 存在 除 loadfactor 以 外 的 设 定 值 。 在 实际 使 用 中 ， 
应 该 根据 网 站 的 结构 设 定 合适 的 数值 。 


2.2 ”增设 缓存 服务 器 一 -Squid、memcached 


2.2.1 引入 缓存 服务 器 


在 2.1 世 中 已 经 针对 反 辐 代理 进行 了 讲解 。 接 下 来 ， 本 和 将 要 讨论 缓存 服务 
器 的 详情 。 

HTTP 与 缓存 

在 网 络 服务 所 使 用 的 协议 中 ，HTTP 是 稀疏 的 协议 ， 即 具有 无 状态 了 0 的 属 


性 。 因 为 由 一 个 无 状态 的 协议 所 交换 的 文件 不 具备 状态 ， 因 此 具有 易 缓 存 
的 特性 。 所 以 在 HTTP 协议 中 ， 提 供 了 非常 强大 的 缓存 机 制 。 


10 关于 HTTP 无 状态 协议 ， 请 参考 以 下 链接 。 
URL http://baike.baidu.com/view/4551466.htm 


例如 在 Internet Explorer (IE) 或 Firefox 等 大 多 数 Web 浏览 器 中 ， 当 初次 访 
问 下 载 该 文件 时 ， 浏 览 器 会 将 其 缓存 在 本 地 ， 当 再 次 访问 时 ， 将 直接 从 本 
地 调 出 该 文件 。 在 浏览 器 中 ， 为 了 查看 远程 文件 是 否 已 经 更 新 ， 可 以 使 用 
HTTP 头 替 换 服务 器 与 文档 的 修改 日 期 。 


通过 Live HTTP Headers 得 知 缓存 效果 
通过 使 用 Fierfox 浏览 器 的 Live HTTP Headers 1 功能 ， 能 够 了 解 到 HTTP 


头 的 交换 情况 。 下 面 以 图 片 文件 的 交换 情况 为 例 进 行 说 明 。 以 下 为 浏览 如 
向 Web 服务 器 发 送 的 HTTP 请 求 头 。 


1 URL https://addons.mozilla.org/zh-CN/?refox/addon/live-http-headers/ 


GET /images/top/h1.gif HTTP/1.1 
Host: www.hatena.ne.jp 
Keep-Alive: 300 

Connection: keep-alive 


If-Modified-Since: Wed, 19 Dec 2007 15:31:43 GMT 


If-Modified-Since 头 中 记载 了 日 期 。 这 是 浏览 古 取 得 该 文件 的 时 间 。 该 请 求 
所 得 到 的 服务 器 (Apache) 的 应 答 为 : 
HTTP/1.x 394 Not Modified 


Date: Wed, 27 Feb 2008 06:43:31 GMT 
Server: Apache 


由 此 可 以 看 出 HTTP 的 状态 代码 为 304 (Not Modified) 。Web 服务 器 
Apache 所 进行 的 处 理 为 : 


。 取 得 从 客户 端 发 来 的 If-Modified-Since 的 更 新 时 间 


。 与 本 地 文件 的 时 间 进 行 比较 
。 判断 客户 端 所 保存 的 缓存 文件 是 否 需要 进行 更 新 


在 此 并 不 会 返回 文件 ， 而 是 返回 状态 码 304， 即 代表 “即使 不 返回 文件 ， 只 
要 本 地 存在 该 文件 的 缓存 ， 束 能 显示 出 图 片 ”。 据 此 ， 


。 客户 端 可 以 省 略 从 网 上 下 载 图 片 数 据 的 步骤 
。 服务 器 可 以 省 略 将 文件 传送 给 客户 端的 步骤 
以 上 如 是 使 用 HITP 协议 的 缓存 所 达到 的 效果 。 
2.2.2 ”Squid 缓存 服务 器 
既然 客户 端 与 服务 器 有 HTTP 缓存 ， 服 务 右 与 服务 左 间 应 该 也 有 类 似 HTTP 


缓存 的 方法 存在 。 不 管 主机 与 主机 间 的 关系 完 竞 如何， 者 两 者 的 交换 中 有 
HTTP 协议 可 用 ， 那 应 该 束 能 实现 内 容 的 缓存 。 


Squid 是 HTTP、HTTPS、FTP 等 使 用 的 开源 缓存 服务 器 。Squid 可 用 于 
任意 Web 系统 中 ， 使 其 实现 HTTP 的 缓存 功能 。 将 Squid 配置 在 使 用 
HTTP 进行 通信 的 两 点 之 间 ， 即 可 实现 缓存 。 


| 12 URL http://www.squid-cache.org/ 


Squid 通常 被 用 来 缓存 客户 端 从 服务 器 上 下 载 的 文件 。 例 如 大 学 或 企业 在 
LAN 网 关 配 备 了 Squid， 当 办 公 室 的 各 PC 访问 Internet 的 网 站 时 ， 都 会 经 
由 Squid， 即 缓存 服务 器 Squid 发 挥 了 代理 服务 器 的 功能 (图 2.2.1) 。 


WAN ( Internet ) 


图 2.2.1 Squid (代理 服务 器 ) 


在 此 ， 当 某 个 客户 端 下 载 了 文件 ，Squid 就 会 缓存 它 。 当 其 他 的 客户 端 请 求 
同样 的 文件 时 ， 将 从 缓存 中 直接 取出 该 文件 。 由 于 文件 一 旦 被 请 求 后 ， 之 
后 束 会 直接 从 缓存 中 返回 ， 因 此 无 需 每 次 者 请求 原始 网 页 ， 不 仅 市 约 了 网 
络 带 宽 ， 因 为 从 LAN 直接 返回 数据 ， 下 载 文件 的 速度 也 会 变 得 很 快 。 


使 用 Squid 搭建 反 向 代理 

Squid 可 作为 反 向 代理 使 用 。 在 2.1 节 中 介绍 了 使 用 Apache 搭建 反 同 代理 
的 步 又，Squid 也 可 通过 类 似 的 步 又 搭建 起 反 向 代理 。 从 服务 絮 人 负载 分 流 的 
观点 来 看 ， 这 才 是 Squid 主要 的 应 用 形式 。 


Squid 作为 反 向 代理 工作 时 ， 通 过 Squid 可 以 将 网 站 的 文件 缓存 到 Squid 服 
务 器 上 (图 2.2.2) 。 


图 2.2.2 Squid ( 反 向 代理 ) 
。 若 Squid 接 到 客户 端的 HTTP 请 求 ， 就 向 后 端 服务 器 索取 请 求 的 文件 
。 Squid 将 服务 器 取得 的 文件 缓存 到 本 地 


。 当 其 他 客户 端 发 出 请 求 时 ，Squid 将 确认 缓存 的 有 效 性 ， 若 缓存 有 效 ， 
就 将 文件 从 缓存 直接 返回 到 客户 端 


。 如 果 短 时 间 内 有 10,000 个 客户 端 请 求 同 一 文件 ， 则 后 端 服务 器 ( 若 文 
人 


Squid 内 部 的 存储 器 专 为 缓存 设计 ， 速 度 非常 理想 ， 而 且 Squid 可 以 以 较 小 
的 资源 消耗 处 理 大 规模 的 请 求 。 大 多 数 情 产 下 ， 与 从 后 端 服务 着 返回 文件 
相 比 ， 从 Squid 的 缓存 中 返回 文件 速度 很 快 。 这 样 做 也 会 降低 负载 。 

Squid 不 仅仅 只 是 缓存 HTTP 的 内 容 ， 也 可 以 通过 网 络 和 其 他 的 Squid 服务 


器 共享 缓存 。 使 用 该 功能 时 ， 返 回 缓存 的 Squid 服务 器 在 负载 升 高 的 情况 
下 ， 只 需 将 请 求 导 向 其 他 的 Squid 处 理 即 可 。 这 与 见 余 的 实现 是 类 似 的 。 


Squid 缓存 什么 

Squid 是 以 HTTP 协议 的 缓存 功能 为 前 提 的 绥 存 服务 絮 。 因 此 绥 存 HTTP 文 
件 、CSS 样式 表 、JavaScript 脚本 、 图 片 等 静态 内 容 是 很 明智 的 选择 。 若 原 
台 文 档 更 新 的 话 ，Squid 缓存 会 将 过 期 的 缓存 删除 并 替换 为 最 近 的 内 容 。 


动态 的 内 容 要 如 何 处 理 呢 ? Squid 拥有 非常 灵活 的 缓存 命令 ， 例 如 针对 某 个 
动态 页 面 设置 其 只 缓存 30 分 钟 也 没 问 题 。 


基于 HTTP 协议 进行 缓存 ， 也 就 是 把 URL 作为 Key 来 缓存 内 容 。 即 每 个 
URL 对 应 一 个 缓存 文件 ， 以 此 存储 缓存 数据 。 


但 问题 是 动态 页 面包 含有 状态 信息 。 例 如 在 Web 应 用 软件 的 页 面 头 中 很 多 
都 会 显示 账户 名 等 。 一 般 该 情况 可 通过 Cookie 会 话 管理 来 实现 。 最 终 即使 
征 同 一 URL， 根 据 用 户 的 不 同 所 输出 的 信息 也 不 同 。 


耕 不 小 心 将 所 有 这 样 的 动态 文件 都 进行 了 缓存 ， 如 缓存 了 “欢迎 A 先生 ”这 
样 的 信息 ， 那 么 当 B 先生 访问 同一 URL 时 ， 就 会 取 用 A 先生 的 缓存 信 
电 ， 对 B 先生 输出 “欢迎 A 先生 ”这 样 的 信息 。 这 是 缓存 中 会 发 生 的 代表 性 
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问题 (图 2.2.3) 
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图 2.2.3 不 该 缓存 的 内 容 


动态 页 面 中 ， 每 个 用 户 的 行为 都 会 造成 页 面 内 容 的 改变 ， 如 打 要 将 URL 作 
为 Key 来 缓存 这 些 文件 的 话 ， 在 HTTP 协议 下 是 很 难 实现 的 。 首 先 ， 在 基 
于 HITP 协议 的 缓存 中 ， 通 间 都 是 无 状态 的 内 容 交换 ， 而 在 通 浓 使 用 的 
Cookie 的 会 话 管理 中 ， 无 状态 的 协议 则 会 被 加 入 “状态 ”， 即 变 成 有 状态 的 
通信 。 这 有 迟 于 协议 所 要 求 的 前 提 条 件 ， 因 此 在 该 协议 所 支持 的 缓存 机 制 
中 髓 会 产生 矛盾 ” 


硕 望 使 用 缓存 来 减轻 负载 ， 但 又 无 法 应 用 HITP 协议 级 别 的 缓存 ..……. 在 此 
情况 下 ， 可 以 在 应 用 软件 的 内 部 ， 例 如 在 数据 库 (Database) 中 ， 将 记录 的 
对 象 以 对 象 为 单位 进行 缓存 ， 以 这 种 方式 来 解决 问题 的 话 ， 缓 存 内 容 的 粒 
度 要 比 平 时 细 。 由 于 粒度 变 细 ， 因 此 将 不 选择 Squid 这 种 以 更 大 粒度 为 对 象 
的 缓存 服务 器 ， 仪 会 选择 适合 该 粒度 的 缓存 服务 器 。 后 文中 提 到 

的 “memcached” 就 是 一 个 例子 。 


总 之 ， 在 可 以 缓存 整个 页 面 的 情况 下 ， 使 用 Squid 是 比较 明智 的 选择 。 
Squid 的 设 定 示例 

以 下 对 将 Squid 作为 反 向 代理 使 用 时 的 设 定 示例 进行 介绍 。 
在 将 Squid 作为 反 向 代理 使 用 的 情况 下 ， 可 以 使 用 多 种 拓扑 结构 ， 本 文选 择 
的 结构 是 将 Squid 插入 反 向 代理 (通过 Apache 构建 的 ) 与 AP 服务 器 中 间 
(图 2.2.4) 。 在 到 达 存 有 原始 内 容 的 后 端 AP 服务 器 之 前 ， 反 向 代理 将 经 


由 Apache ~ Squid 两 处 。 为 了 实现 分 流 与 元 余 ， 需 要 准备 两 台 Squid， 并 
共 译 缓存 。 


通过 mod_proxy_balancer 或 LVS 
向 两 合 Squid 进行 分 配 


192.168.0.151 


图 2.2.4 将 Squid 作为 反 向 代理 使 用 的 例子 

代码 清单 2.2.1 是 将 后 端 服务 器 返回 的 内 容 缓存 30 分 钟 ， 这 里 的 缓冲 行为 

人 
2.2.1 有 不 。 


代码 清单 2.2.1 squid.conf 的 设 定 示例 


http_port 80 ~Sdquid 的 端口 为 89 存 有 原始 内 容 的 服务 器 是 后 端 服务 器 
cache_peer 192.168.0.100 parent 80 0 no-query originserver 
<-(192.168.0.100:80) 


cache_peer 192.168.0.151 sibling 80 3130 < 子 邻 居 的 (sibling)Squid 是 
192.168.0.151。 缓存 协议 的 端口 为 3130 


http_access allow all =- 从 所 有 的 服务 器 都 可 访问 (由 于 在 局 域 网 内 ， 因 此 无 需 限 制 访问 ) 
cache_dir coss /var/squid/coss 8000 block-size=512 max-size=524288 -缓存 
存储 器 使 用 coss 存储 机 制 X1 


refresh_pattern . 30 20% 3600 -缓存 30 分 钟 ※2 


client_persistent_connections off 人 


将 Keep-Alive 的 连接 保持 设 为 无 效 尖 3 


server_persistent_connections off 瑟 


icp_query_timeout 2000 -将 确认 兄弟 缓存 是 否 存 在 的 超时 时 间 设 为 2000ms 


※1 coss 是 Squid 的 缓存 存储 器 的 一 种 ， 


是 现在 可 使 用 的 存储 器 中 最 快 的 。 具 体 请 参考 Squid 手册 。 


※2 Squid 的 缓存 控制 由 refresh_pattern 进行 。 由 于 篇 幅 原因 ， 这 里 省 略 了 对 refresh_pattern 的 讲解 。 
在 squid.conf 中 有 详细 说 明 。 


六 3 关于 Keep-Alive 的 无 效 化 ， 请 参考 2.1 节 。 


2.2.3 “使 用 memcached 进行 缓存 


Squid 的 优点 在 于 可 以 使 用 HTTP 协议 将 文件 进行 缓存 。HTTP 协议 是 无 状 
态 的 可 扩展 协议 ，Squid 也 同样 是 可 扩展 的 ， 而 且 不 受 应 用 软件 的 结构 等 的 


影响 。 


像 之 前 提 到 的 那样 ， 很 多 情况 都 不 适合 用 HITP 级 别 的 缓存 。 在 Web 应 用 
程序 的 世界 中 ， 可 以 使 用 缓存 服务 器 ， 根 据 应 用 程序 内 部 使 用 的 数据 粒度 
来 管理 缓存 。memcached 13 就 是 其 中 一 例 。 


13 URL http://www.danga.com/memcached/ 


memcached 是 用 C 语言 写 的 应 对 高 速 网 络 分 流 的 缓存 服务 器 ， 所 用 的 存储 
殴 其 实 是 系统 的 内 存 。 服 务 器 启动 memcached， 通 过 使 用 专用 的 客户 端 库 
与 服务 絮 进 行 通信 ， 可 以 取得 并 保存 编程 语言 中 规定 的 对 象 。 客 户 端 库 已 
经 针对 不 同 的 语言 ， 发 布 了 与 其 对 应 的 客户 端 库 ， 不 仅 限 于 C 语言 、 
C++、Java、Perl、Ruby、PHP、Python， 现 今 流 行 的 语言 几乎 都 获得 了 文 
持 。 


memcached 是 由 程序 内 部 使 用 的 。 在 程序 内 部 ， 虽 然 经 常会 将 特定 数据 绥 

存在 文件 中 ， 或 者 缓存 在 本 地 内 存 中 ， 但 有 时 也 会 希望 将 其 缓存 在 网 络 上 

的 服务 侣 中 。memcached 束 捉 供 了 这 类 问题 的 解决 方案 。 

在 此 我 们 不 做 过 于 详尽 的 讲解 ， 以 下 仅 以 稍 单 的 Perl 脚本 为 例 对 其 使 用 情 

况 做 一 个 大 概 的 介绍 。 代 码 清单 2.2.2 是 一 个 简单 的 程序 ， 所 做 的 处 理 仅仅 
征 取 得 数组 对 象 并 将 其 保存 在 缓存 服务 从 中 。 


代码 清单 2.2.2 的 执行 结果 是 : 


% perl memd.pl 
256 


代码 清单 2.2.2” memcached 的 使 用 示例 


#1!/usSr/bin/env perl 
use strict; 
USe warnings; 


use Cache: :Memcached; 


## 将 192.168.0.1:11211 中 运行 的 nemcached 作 为 缓存 服务 器 
my $memcached = Cache: :Memcached->new({ servers => [ 
'192.168.0.1:11211' ] }); 


my $object = [ 1, 2, 4, 16, 256 |]; 


## 将 对 象 通过 'object1' 保 存 
$memcached->set( 'object1' => $object ); 


## 将 对 象 从 缓存 中 获取 
my $cached = $memcached->get('object1'); 


printf "%d\n", $cached->[4]; 


访 问 从 缓存 中 取出 的 数组 对 象 ， 可 以 确认 确实 已 经 准确 恢复 到 了 以 前 的 状 


O 〇 
4 


由 于 memcached 是 以 (key,Vvalue) 键 值 对 进行 存储 的 ， 不 管 对 象 是 否 为 
依赖 于 语言 的 对 象 ， 都 能 够 被 保存 〈 进 行 序列 化 并 保存 ) 。 只 要 知道 key， 
不可 以 从 别 的 程序 中 取得 那个 缓存 。 


memcached (根据 所 装载 的 客户 端 库 ) 存在 抗 障碍 性 。 知 某 特 定 的 主机 运行 
的 memcached 宕 机 ， 客 户 端 库 会 感知 其 问题 ， 从 而 避免 将 该 服务 器 作为 组 
存 服务 器 使 用 。 


2.3 


2.3.1 万 一 数据 库 服务 器 停止 

大 多 数 情况 下 ， 数 据 库 会 存放 默认 用 户 的 信息 等 服务 运行 所 必需 的 数据 。 
因此 数据 库 万 一 宕 机 或 发 生 故障 ， 束 很 可 能 会 产生 能 够 直接 导致 服务 停止 
的 郑重 故障 ， 进 而 引起 更 疗 重 的 问题 。 


本 市 将 介绍 在 数据 库 服 务 器 停止 工作 的 情况 下 ， 使 数据 库 尽 快 恢复 正常 运 
行 所 采取 的 步骤 。 


导致 数据 库 停 止 的 原因 
导致 数据 库 停止 的 原因 有 很 多 ， 例 如 下 面 几 项 : 
。 数据 库 服 务 器 的 进程 mysqld) 异常 结束 
。 倒 盘 空间 已 满 

。 磁盘 故 障 

。 服务器 电源 故障 


一 般 在 mysqld 异常 结束 的 情况 下 ， 重 启 mysqld 台 能 解决 ; 在 磁盘 空间 已 
满 的 情况 下 ， 将 不 使 用 的 数据 或 文件 删除 以 腾 出 空间 即 可 。 


另外 在 磁盘 或 电源 等 硬件 发 生 故 障 的 情况 下 ， 修 复 该 故障 往往 要 伦 一 些 时 
间 。 因 为 从 芋 换 故障 硬件 到 配置 服务 右 等 修复 工作 往往 要 人 花费 一 些 时 间 ， 
若 磁 盘 发 生 了 故障 ， 则 其 后 的 数据 恢复 工作 也 需要 时 间 。 

短 时 间 内 恢复 的 办 法 

以 下 考虑 在 便 件 发 生 故 障 的 情况 下 ， 短 时 间 内 恢复 数据 库 服 务 占 的 方法 。 
假设 有 两 舍 完 全 相同 的 数据 库 服务 问 ， 当 一 台 因 硬件 故障 无 法 使 用 时 ， 


立刻 切换 到 另 一 台 。 在 此 需要 准备 两 台 服 务 器 ， 其 中 寿 件 发 钦 件 的 结构 和 
设置 都 相对 比较 简单， 问题 融 剩 下 “数据 库 的 数据 "了 。 


恢复 


这 里 登场 的 是 同步 (Replication) 这 种 手段 (图 2.3.1) “一 般 同步 是 指 ， 
将 数据 实时 复制 同步 到 其 他 位 置 的 数据 库 。 这 里 主要 是 通过 LAN 或 
Internet 等 网 络 ， 将 存在 物理 性 差异 的 服务 器 间 的 数据 进行 同步 ， 即 将 不 同 


服务 需 的 数据 库 更 新 至 一 致 。 


图 2.3.1 同步 

总 之 ， 只 要 准备 两 台数 据 库 服务 器 并 同步 其 数据 ， 当 一 台 发 生 故 障 时 天 能 
和 
与 同步 结构 。 


14 为 了 尽 可 能 地 不 让 服务 器 发 生 灾难 性 后 果 ， 可 以 使 用 RAID 提高 单位 服务 器 的 可 靠 度 ， 使 其 运作 
更 加 稳定 。 另外 ， 使 用 配备 了 Write Cache 的 硬件 RAID， 还 可 提高 写 入 性 能 ， 可 以 说 是 一 石 二 鸟 。 
请 留意 ， 根 据 产品 的 不 同 ， 有 时 不 配备 BBU (Battery Backup Unit) 的 话 就 不 能 使 用 Write Cache 


的 功能 。 


2.3.2 ”MySQL 的 同步 功能 的 特性 和 注意 点 

自 先 介绍 MySQL 同步 的 特性 。 本 市 所 使 用 的 MySQL 版 本 为 5.0.45。 
单 主 与 多 从 

主 (Master) 指 的 是 接收 客户 端 发 出 的 修改 与 查询 两 种 类 型 的 语句 的 服务 


器 ， 从 (Slave) 指 的 是 不 接收 客户 端 发 出 的 更 新 请 求 ， 仅 通过 与 Master 的 
联动 来 进行 数据 的 更 新 的 服务 器 。 


人 的 同步 架构 中 ， 提 供 服务 的 有 1 台 Master 与 多 台 Slave ( 单 主 、 多 
网 


如 果 存 在 多 个 Master， 甚 至 需要 在 这 些 Master 之 间 互 相同 步 数据 的 话 ， 这 
样 的 多 主 结构 是 不 文 持 的 思 。 另 外 因为 可 以 存在 多 台 Slave， 所 以 可 以 将 包 
含有 SELECT 内 容 的 查询 语句 分 发 到 多 台 Slave 进行 处 理 以 提高 性 能 。 详 
细 介 绍 请 参考 2.4 入。 


5 但 是 ， 通 过 分 离 更 新 表 或 记录 的 空间 等 ， 多 主 结构 的 应 用 也 是 没 问题 的 。 
异步 数据 同步 
MySQL 支持 “异步 数据 同步 ”。 


所 谓 异步 ， 是 指 系统 更 新 到 Master 的 内 容 并 不 一 定 会 即时 地 反映 到 Slave 
(存在 响应 的 时 间 间 隔 ) 


虽说 也 存在 支持 复制 同步 的 RDBMS， 但 同步 与 异步 各 有 优 缺 ， 并 不 能 简单 
地 说 部 优 剖 劣 。 


被 同步 的 数据 内 容 


MySQL 是 通过 “SQL 语句 ”进行 同步 数据 的 。 例 如 有 一 条 UPDATE 语句 ， 
那么 无 论 该 语句 更 新 的 内 容 是 1 项 还 是 100 万 项 ， 由 Master 传 至 Slave 的 
也 仅 有 一 条 UPDATE 语句 。 


该 方式 使 Master 与 Slave 之 间 只 需 交 换 较 少 的 数据 就 能 完成 同步 。 但 者 在 
执行 时 同步 了 无 效 的 查询 语句 〈 即 不 能 返回 正确 结果 的 查询 ) ， 则 Master 
与 备份 的 Slave 数据 束 可 能 会 存在 差异 。 


例如 在 修改 类 的 语句 中 ， 若 LIMIT 语句 没有 使 用 ORDER BY，Master 数据 
库 中 LIMIT 语句 所 选择 的 行 与 Slave 数据 库 中 所 选择 的 可 能 会 存在 差异 。 

因此 ，Master 数据 库 与 Slave 数据 库 中 就 会 有 不 同 的 行 被 更 新 。 该 问题 有 一 
点 非常 致 合 ， 那 就 是 不 会 察觉 到 数据 已 经 出 现 了 差异 。 如 果 笠 运 的 话 ， 在 

同步 时 会 因 违 反 UNIQUE 等 的 规则 而 出 现 错误 并 停止 ， 这 时 就 可 能 会 觉察 
到 ; 若是 谁 都 没有 察觉 到 异常 ， 则 很 有 可 能 存在 数据 不 同步 的 危险 。 


SQL 的 同步 语句 还 存在 一 些 其 他 的 潜在 问题 ， 这 些 问题 暂时 都 没有 公认 的 
解决 办 法 ， 因 此 最 好 不 要 提交 会 出 错 的 查询 。 


在 MySQL 5.1.5 以 后 的 版 本 中 ， 由 于 可 以 使 用 “以 行为 单位 的 同步 功能 ”， 
所 以 该 问题 得 以 解决 。 在 以 行为 单位 的 同步 中 ，Master 数据 库 中 被 实际 更 
新 的 行 数 据 会 被 同步 ， 因 此 无 需 使 用 前 述 的 LIMIT 语句 ， 也 避免 了 在 执行 
时 无 从 得 知 结果 的 问题 。 


在 MySQL 5.1.8 中 还 增加 了 "混合 模式 ”。 该 模式 一 般 以 SQL 语句 为 单位 进 
行 同步 ， 根 据 情况 的 不 同 还 可 以 以 行为 单位 来 执行 同步 操作 。 


2.3.3 ”同步 的 结构 
接 下 来 从 以 下 几 点 来 讲解 同步 的 结构 。 
。 LO 线程 与 SQL 线程 
。 二进制 日 志 与 中 继 日 志 
。 位 置信 息 
Slave 的 LO 线程 与 SQL 线程 


为 了 实现 同步 ，Slave 中 设置 了 两 个 线程 同时 工作 ， 即 “TO 线程 ”与 “SQL 线 
程 ”。 


IO 线程 是 将 从 a 得 到 的 数据 (更 新 日 志 ) 放 到 被 称 为 中 继 日 志 的 文件 
中 进行 记录 的 。 男 一 方面 ，SQL 线程 则 是 将 中 继 日 志 读 取 并 执行 查询 。 


为 何 要 分 为 两 个 线程 呢 ? 这 是 为 了 降低 同步 的 延迟 。 如 果 将 IO 与 SQL 线 
程 的 工作 只 分 配给 一 个 线程 ， 且 SQL 的 处 理 又 很 花 时 间 ， 那 么 在 处 理 SQL 
语句 期 间 是 无 法 从 Master 复制 数据 的 。 为 了 避免 这 样 的 事态 ， 应 该 将 其 工 
作 分 担 给 两 个 线程 。 


二 进 制 日 志 /一 与 中 继 日 志 /DA 


Master 中 会 生成 “二进制 日 志 ”(The Binary Log) ，Slave 中 会 生成 * 中 继 日 
志 ” (Relay Log) 。 


二 进 制 日 志 中 只 记录 修改 数据 的 语句 ， 而 不 记录 查询 类 (不 对 数据 库 进 行 
改动 ) 的 语句 。 另 外 ， 二 进 制 日 志 除了 被 用 于 同步 之 外 ， 还 可 被 用 于 保存 
备份 中 更 新 的 内 容 。 但 由 于 二 进 制 日 志 不 是 文本 格式 ， 无 法 直接 打开 查 
看 ， 需 要 在 命令 行 下 使 用 mysqlbin1og 将 其 转换 为 文本 格式 。 


中 继 日 志 是 指 ，Slave 的 IO 线程 在 从 Master 获取 更 新 日 志 (记录 了 修改 类 
语句 所 请 求 的 数据 ) 后 ， 将 其 保存 在 Slave 上 。 因 此 其 内 容 与 二 进 制 日 志 相 
同 。 与 二 进 制 日 志 不 同 的 是 ， 当 不 需要 时 ， 中 继 日 志 会 被 SQL 线程 自动 删 
除 ， 不 需要 手动 删除 。 


位 置信 息 


因为 Slave 会 记 住 复制 同步 了 多 少 Master 的 数据 ， 因 此 即便 Slave 的 
a 进程 终止 后 隔 段 时 间 再 启动 ， 也 可 从 终止 时 的 断 点 开始 继续 同步 数 
后 o 


在 此 我 们 将 Master 所 在 的 主机 名 、 日 志文 件 名 、 日 志文 件 中 处 理 的 信息 称 
为 “位 置信 息 ”。 位 置信 息 被 保存 在 文本 格式 的 文件 “masterinfo” 中 ， 该 文件 
可 以 使 用 SQL 语句 SHOW SLAVE STATUS 进行 确认 。 


2.3.4 ”搭建 同步 结构 
接 下 来 对 同步 结构 的 搭建 流程 逐步 进行 说 明 。 
同步 条 件 
使 用 MySQL 搭建 同步 结构 需要 满足 以 下 前 提 条 件 : 
。 Master 可 拥有 多 个 Slave 
在 一 个 Master 下 面 能 够 配备 多 个 Slave 
。 Slave 只 能 挂靠 一 个 Master 


Slave 无 法 从 多 个 Master 中 同步 数据 ， 但 Slave 在 某 些 状况 下 也 可 以 成 
为 其 他 服务 器 (Slave) 的 Master 


。 所 有 的 Master 及 Slave 中 必须 指定 不 同 的 server-id 
server-id 是 同步 结构 中 识别 不 同 服务 器 的 标志 ， 需 要 指定 为 不 同 的 数值 
。 Master 需要 输出 二 进 制 日 志 


0 Slave， 因 此 需要 保证 开启 Master 的 二 进 
| 日 志 


my.cnf 


若 需 要 搭建 同步 结构 ， 可 将 MySQL 的 设 定 文 件 “my.cnf” 参 照 代码 清单 2.3.1 
进行 必要 的 设 定 。 


代码 清单 2.3.1 my.cnf 


[mysqld] 

server-id =1 -© 
lo0g-bin mysql-bin -©@ 
l10g-bin-index mysql-bin -© 


relay-1og relay-bin -@ 
relay-log-index relay-bin -© 
log-slave-updates -© 


需要 将 每 个 数据 库 服务 器 的 server-id 设置 为 不 同 的 整数 值 ， 可 指定 的 郊 围 

为 1 ~ 4294967295。 由 于 代码 清单 2.3.1 的 @ 中 已 经 将 server-id 指定 为 了 

1， 若 这 是 Master 的 mycnf， 则 Slave 的 server-id 就 需要 指定 为 除 1 以 外 的 
其 他 值 (例如 2) 


代码 清单 2.3.1 的 @ log-bin 与 @ log-bin-index 是 指 开 启 二 进 制 日 志 ， 并 指 
定 日 志 的 文件 名 及 索引 的 文件 名 。@ relay-log 与 @ relay-log-index 也 是 同 
样 ， 指 的 是 开启 中 继 日 志 并 指定 中 继 日 志 的 文件 名 。 


最 后 的 @ log-slave-updates 设 定 了 Slave 的 二 进 制 日 志 输 出 。 若 无 该 设 定 ， 
则 Slave 不 会 输出 二 进 制 日 志 。 但 由 于 MySQL 的 同步 操作 中 Master 必须 输 
出 二 进 制 日 志 ， 为 了 使 Slave 升格 为 Master 的 操作 顺利 进行 ， 事 先 对 Slave 
设 定好 二 进 制 日 志 输 出 是 较 好 的 选择 。 


接 下 来 将 使 用 代码 清单 2.3.1 的 my.cnf， 局 动 搭 建 好 的 Master 服务 器 的 
mysqld ° 


建立 同步 专用 的 用 户 


为 了 连接 Master 与 Slave， 需 要 在 Master 上 建立 用 户 ， 并 赋予 其 最 基本 的 
REPLICATION SLAVE 权限 。 该 用 户 为 同步 专用 ， 不 需要 给 予 该 用 户 其 他 
的 权限 。 


例如 可 以 将 同步 专用 的 用 户 名 设置 为 “repl]”， 将 该 用 户 的 密码 设 

为 “qda55wd”， 寿 在 192.168.31.0/24 的 网 络 上 已 经 配置 了 Slave， 则 可 参考 以 
下 信息 来 配置 Master。 在 本 命令 中 ， 为 用 户 rep1 赋予 了 REPLICATION 
SLAVE 权限 。 


mysql> GRANT REPLICATION SLAVE ON *.* TO 
repl@'192.168.31.0/255.255.255.0' IDENTIFIED BY 'qa55wd ' ; 


同步 开始 时 所 必需 的 数据 


在 增加 新 的 Slave 时 ， 或 者 在 为 遭遇 故障 的 Slave 引入 备份 设备 时 ，Slave 
的 初始 数据 要 怎么 准备 呢 ? 这 里 不 仅 需要 进行 Master 的 完全 转 储 ， 还 需要 
明确 位 置信 息 ， 即 需要 知晓 Master 的 二 进 制 日 志 转 储 是 何 时 进行 的 。 因 
此 ， 仅 通过 mysqldump 工具 获取 数据 的 转 储 文件 并 不 能 搭建 出 Slave。 


简单 起 见 ， 这 里 将 转 储 + 位 置信 息 称 为 “快照 ”(Snapshot) 


在 抓 取 快 照 时 ， 若 能 停止 Master 的 mysqld， 则 先 将 mysqld 停止 ， 然 后 再 
使 用 tar 等 打包 复制 人 包含 有 MyISAM 和 InnoDB 数据 文件 的 MySQL 数 
据 目 录 ， 或 者 使 用 LVM (Logical Volume Manager) 的 快照 功能 ， 减 少 花 费 
的 时 间 。 使 用 tar 的 - -exclude 选项 可 以 排除 不 必要 的 文件 〈 二 进 制 文 
件 等 ) ， 从 而 缩短 复制 同步 的 时 间 。 


6 在 GNU tar 中 ， 使 用 -z 选项 可 同时 进行 gzip 压缩 。 但 根据 数据 容量 的 大 小 可 能 要 花费 一 些 时 
间 ， 若 希望 减少 时 间 ， 则 建议 不 进行 压缩 而 仅 使 用 tar 进行 复制 同步 。 


在 此 请 注意 不 要 忘记 “记录 位 置信 息 ”。 


停止 mysqld 上 时， 系统 会 记录 下 Master 的 二 进 制 日 志文 件 的 文件 名 ， 并 在 启 
动 后 切换 到 下 一 个 数字 。 即 文件 名 为 “mysql-bin.000002” 的 日 志文 件 在 启动 
后 的 位 置信 息 将 变 为 “mysql-bin.000003 的 开头 ”17 。 


7 请 注意 二 进 制 日 志 的 头 部 的 位 置 是 “<4”， 而 不 是 “0”。 


在 不 能 停止 mysqld 的 情况 下 ， 只 需 先 暂停 使 用 修改 类 的 语句 (这 时 不 让 数 
据 库 修改 数据 ) ， 之 后 再 使 用 完全 转 储 ， 并 记录 好 SHOW MASTER 
STATUS 的 结果 便 可 以 了 。 


另外 ， 建 议 利 用 磁盘 空间 尽 可 能 保存 更 多 的 快照 。 因 为 只 要 存在 快照 和 抓 


取 时 间 之 后 的 Master 的 二 进 制 日 志 ， 即 便 其 再 过 时 ， 也 可 以 以 此 为 基础 制 
作 Slave， 这 对 今后 增设 Slave 及 恢复 故障 设备 都 会 起 到 很 大 的 作用 ° 


2.3.5 ”启动 同步 


下 面 基 于 快照 制作 Slave。 若 Slave 在 mysqld 正在 运行 时 停止 的 话 ， 可 以 采 
取 前 文中 说 明 过 的 步骤 将 快照 展开 到 MySQL 的 数据 目录 上 。 至 此 Master 
和 Slave 就 存放 好 相同 的 数据 了 。 


这 里 我 们 不 立刻 启动 Slave 的 mysqld， 先 来 比较 一 下 Master 和 Slave 的 
mycnf 文件 的 差异 。 


Master 和 Slave 的 mycnf 文件 的 差异 

确认 的 重点 是 “server-id”，Master 和 Slave 之 间 只 有 server-id 的 值 是 必须 不 
同 的 。 若 若 使 用 了 InnoDB， 则 需要 将 Master 及 Slave 的 innodb_data_file_path 
栏目 中 的 数据 文件 的 名 称 、 数 量 、 大 小 设置 为 同样 的 数值 。 


总 而 言 之 ， 只 要 确认 Master 和 Slave 的 my.cnf 中 只 有 server-id 的 值 不 一 样 
歼 可 以 了 。 


Slave 开始 运行 & 确认 


确认 没 问 题 的 话 就 启动 Slave 的 mysqld， 但 因为 仅仅 启动 的 话 还 不 能 运行 
Slave， 所 以 需要 在 Slave 中 执行 以 下 代码 : 


@ 指 示 与 Master 的 关系 
'my5-1"', 
'repl', 


CHANGE MASTER TO 
MASTER_HOST 
MASTER_USER 
MASTER_PASSWORD 'qa55wd ' ， 
MASTER_LOG_FILE 'mysql-bin.000003', 
MASTER_LOG_POS 4; 


i IN IN TY 


SLAVE START; -~ @ 开 始 复制 


在 @ CHANGE MASTER TO 
的 “MASTER_LOG _FILE” 与 “MASTER LOG _POS” 中 ， 指 定 快 照 抓 取 时 的 
位 置信 息 。 


如 有 果 想 要 确认 复制 同步 是 否 已 经 开始 进行 ， 可 在 Slave 中 执行 SHOW 

SLAVE STATUS ， 若 结 果 中 

的 “Slave_IO_Running” 与 “Slave_SQL_Running” 都 为 Yes， 则 表示 没 问 题 了 。 

要 是 发 生 错 误 的 话 ， 可 通过 “Last_Error 或 MySQL 错误 日 志文 件 来 调查 产 
生 钳 误 的 原因 ， 将 这 些 问 题解 决 后 ， 再 执行 SLAVE START 束 行 了 。 


2.3.6 ”确认 同步 的 状态 


最 后 来 介绍 确认 同步 的 状态 的 方法 。 奉 同步 不 能 正 芝 运行 ， 可 通过 监控 同 
步 的 状态 来 查找 具体 原因 。 


Master 的 状态 确认 
首先 来 介绍 确认 Master 的 状态 的 SQL 语句 。 


SHOW MASTER STATUS 


SHOW MASTER STATUS 指令 可 以 被 用 来 调查 Master 二 进 制 日 志 的 状 
态 。 执 行 结 果 如 图 2.3.2 所 示 。 项 目 内 容 见 表 2.3.1。 


mysql> SHOW MASTER STATUS\G 
火 火 火炎 炎炎 火炎 大 大 火炎 大 火炎 大大 大 大 大 大大 大 大 大 大 大 证 row 类 炎炎 类 炎炎 火炎 炎炎 炎炎 类 类 类 类 炎 类 炎炎 火炎 炎炎 业 类 大 
File: mysql-bin.000006 
Position: 98 
Binlog_Do_DB: 
Binlog_Ignore_DB: 


图 2.3.2 SHOW MASTER STATUS 的 执行 示例 


表 2.3.1 SHOW MASTER STATUS 列 出 的 各 项 目 


| 


SHOW MASTER LOGS 


项 目 


SHOW MASTER LOGS 会 显示 出 目前 Master 中 存在 的 所 有 二 进 制 日 志 
的 文件 名 。 执 行 结果 如 图 2.3.3 所 示 。 


mysql> SHOW MASTER LOGS ; 
二 汪汪 十 
| Log_name | File_size 
DR 站 + 


| mysql-bin.000001 | 117 | 
| mysql-bin.000002 | 463 | 
| mysql-bin.000003 | 343| 
| mysql-bin.000004 | 242 | 
| mysql-bin.000005 | 117 | 
| mysql-bin.000006 | 98 | 
EP re i + 


图 2.3.3 SHOW MASTER LOGS 的 执行 示例 


由 于 二 进 制 日 志 是 渐渐 增加 的 ， 需 要 定期 清理 。 不 过 胡乱 删除 的 话 会 
| 因此 可 以 通过 后 面 叙 述 的 SHOW SLAVE STATUS 对 处 

理 完 毕 的 二 进 制 日 志文 件 名 确认 之 后 再 删除 。 在 有 多 个 Slave 运作 的 情 
况 下 ， 为 了 安全 地 删除 ， 可 以 待 所 有 Slave 的 二 进 制 日 志文 件 处 理 完毕 
后 再 开始 进行 。 另 外 ， 也 不 能 直接 在 文件 系统 上 删除 文件 ， 而 要 在 
Master 上 执行 PURGE MASTERLOGS 语句 来 进行 删除 。 例 如 : 


PURGE MASTER LOGS TO 'mysql-bin.000003'; 


执行 以 上 语句 会 留 下 mysql-bin.000003， 而 删除 更 早 的 mysql- 
bin.000002 及 000001 日 志文 件 。 使 用 RESET MASTER 同样 也 可 以 进行 
删除 操作 ， 但 执行 该 语句 会 删除 Master 所 有 的 二 进 制 日 志 ， 进 而 造成 
同步 终止 。 在 同步 正在 进行 的 情况 下 ， 不 能 使 用 RESET MASTER ， 而 
要 用 PURGE MASTER LOGS 来 删除 日 志 。 


Slave 的 状态 确认 
以 下 介绍 确认 Slave 状态 的 SQL 语句 。 


执行 SHOW SLAVE STATUS 就 可 以 确认 Slave 的 各 种 信息 ， 如 图 2.3.4 
所 示 。 各 条 目的 含义 如 表 2.3.2 所 示 。SHOW SLAVESTATUS 输出 的 内 
容 根据 MySQL 版 本 的 不 同 可 能 存在 差异 ， 最 新 信息 请 参考 MySQL 
AB 的 参考 手册 。 


mysql> SHOW SLAVE STATUSANG 


火炎 火炎 火炎 火炎 大 大大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 1 row 炎炎 淡淡 火炎 淡淡 火炎 炎炎 火炎 炎炎 炎炎 炎炎 火炎 火炎 炎炎 类 


Slave_I0_State: 
Master_Host: 
Master_User: 
Master_Port: 

Connect_Retry : 
Master_Log_File: 
Read_Master_Log_Pos: 
Relay_Log_File: 
Relay_Log_Pos: 
Relay_Master_Log_File: 
Slave_I0_Running: 
Slave_SQL_Running: 
Replicate_Do_DB: 
Replicate_Ignore_DB: 
Replicate_Do_Table: 
Replicate_Ignore_Table: 
Replicate_ Wild_Do_Table: 
Replicate_WwWild_Ignore_Table: 
Last_Errno: 

Last_Error: 
Skip_Counter: 
Exec_Master_Log_Pos: 
Relay_Log_Space: 
Until]_Condition: 

Until Log_File: 

Until_ Log_Pos : 
Master_SSL_Allowed: 
Master_SSL_CA_File: 
Master_SSL_CA_Path: 
Master_SSL_Cert: 
Master_SSL_Cipher: 
Master_SSL_Key : 
Seconds_Behind_Master: 


Waiting for master to send event 


mysql-bin.000006 
98 
relay-bin.000116 
235 
mysql-bin.000006 
Yes 

Yes 


0 


图 2.3.4 SHOW SLAVE STATUS 的 执行 示例 
表 2.3.2 SHOW SLAVE STATUS 列 出 的 条 目 (节选 ) 


Master Log_File 


Read_Master Log Pos 


Relay_Log_File 


Ee 


在 当前 Master 的 二 1, 
SQL 线程 当前 正在 读 取 和 执行 的 


WE 
ene 


用 户 


， 再 党 试 连接 Slave 的 等 待 秒 数 
nn 二 进 制 文件 
IO 线程 已 经 读 取 的 位 置 
继 日 志文 件 的 名 称 


Relay Log _Pos 在 当前 Slave 的 中 继 日 志 中 ，SQL 线 程 已 读 取 和 执行 的 位 置 
记录 了 SQL 线程 最 后 执行 的 查询 的 Master 二 进 制 


A 


Relay_Master Log File 


Slave_IO_Running WO 线程 是 否 被 启动 
SQL 线 程 是 否 被 启动 


查询 所 返回 的 错误 编号 。“0” 代 表 没 有 错误 


执行 多 
执行 的 查询 所 返回 的 错误 消息 等 。 若 Last_Error 值 是 如 
， 则 代表 没有 错误 


后 使 用 SQL_SLAVE_SKIP_COUNTER 时 的 值 。 若 没有 介 
就 设 为 “0” 
后 执行 的 查询 在 Master 的 二 进 制 日 ; 
来 的 总 大 小 。 单 位 


测量 SQL 线程 和 IO 线程 之 间 的 时 间 差距 ， 单位 以 秒 计 。 若 
Seconds_Behind_Master | Master 和 Slave 之 间 的 网 络 连接 较 快 ， 则 能 够 十 分 近似 地 表 
示 Slave 比 Master 落 后 多 少 


具体 输出 的 内 容 有 很 多 ， 下 面 列举 几 个 需要 注意 的 地 方 。 
首先 来 说 日 志文 件 名 与 位 置信 息 ，Master Log_File 与 

Read_Master_ Log_Pos 相对 应 ，Relay_ Log_File 与 Relay_Log_Pos 相对 
以 ，Relay_ Master Log File 与 Exec_Miaster Log_Pos 相对 应 。 


若 IO 进程 正常 ，Slave_ IO_Running 就 会 显示 为 “Yes”; 若 SQL 进程 正 
常 ，Slave_SQL_Running 就 会 显示 为 “Yes”。 若 其 中 任何 一 方 不 

是 “Yes”"， 则 同步 就 会 终止 ， 因 此 在 监控 Slave 运行 情况 的 时 候 需要 密 
切 关 注 上 述 这 些 条 有 目 。 


Last_Error 中 显示 了 错误 信息 ， 该 错误 信息 会 被 记录 在 错误 日 志文 件 
中 。 正 常情 况 下 Last_Errno 会 显示 为 “0”;， 若 出 现 错误 ，Last_Errnor 驶 
会 显示 错误 信息 。 在 监控 Slave 的 状态 时 ， 需 要 同时 确认 Last_Errno 与 
Last_Error 两 者 的 情况 。 


a MySQL 的 Slave+ 内 部 负载 均衡 器 的 灵活 应 用 
小 


2.4.1 MySQL 的 Slave 的 运用 方法 


MySQL 的 同步 结构 中 的 Slave 对 实时 备份 来 说 是 一 个 非常 有 用 的 功能 ， 但 
配置 稍 显 复杂 。 本 节 中 将 会 未 步 探讨 有 关 MySQL Slave 的 运用 方法 。 


Slave 的 运用 策略 

首先 ， 实 际 操作 中 最 常 使 用 的 是 根据 服务 絮 属 性 的 不 同 来 规定 其 行为 ， 以 
此 来 实现 负载 分 发 ， 即 将 修改 类 语句 (INSERT、DELETE、UPDATE) 在 
Master 中 进行 ， 将 查询 类 语句 (SELECT) 在 Slave 中 进行 。 

为 了 进一步 横 疝 扩展 ， 还 可 放置 多 台 Slave。MySQL 的 同步 虽然 仅 允 许 一 
台 Master 的 存在 ， 但 设置 多 台 Slave 是 完全 可 以 有 的。 在 此 建立 多 台 Slave， 
以 将 查询 类 语句 分 发 到 这 些 Slave 上 。 

分 发 到 多 台 Slave 上 

Slave 的 问题 在 于 如 何 分 发 这 些 请 求 。 在 这 里 介绍 两 种 方法 以 供 各 位 参 


@ 在 应 用 程序 端 进行 分 发 


第 一 种 方式 就 是 在 Web 应 用 程序 端 进行 分 发 处 理 。 只 要 做 出 以 下 处 
理 ， 即 可 实现 应 用 程序 端的 分 发 。 


o 确定 好 所 有 Slave 的 主机 名 
o 实现 分 发 的 逻辑 ， 即 如 果 决 定 分 发 到 哪 台 Slave 服务 器 上 
o 实施 Slave 的 状态 监控 ， 若 宕 机 则 不 要 分 发 到 该 Slave 上 


近期 使 用 O/R 映射 访问 数据 库 服 务 絮 的 情况 有 很 多 ， 因 此 可 以 选择 在 
O/R 映射 层 配备 此 类 分 发 处 理 。 


@ 在 负载 均衡 器 上 进行 分 发 
第 二 种 方法 是 利用 负载 均衡 颖 。 提 到 负载 均衡 器 ， 大 家 往往 会 想到 是 
在 外 部 客户 端 与 Web 服务 器 之 间 〈 即 传送 服务 器 文件 的 通道 ) 所 放置 
的 设备 ， 而 既然 负载 均衡 器 是 基于 Linux 部 署 的 ， 所 以 不 妨 将 其 部 署 
到 服务 恬 集 群 内 部 ， 这 也 残 是 第 二 种 方案 。 
与 在 应 用 程序 端 进行 分 发 相 比 ， 在 负载 均衡 硕 上 分 发 有 以 下 优点 : 

o 应 用 程序 端 无 需 考虑 Slave 的 台数 


/ 


由 于 增 减 Slave 的 台数 可 利用 负载 均衡 器 进行 分 发 ， 因 此 束 不 需要 
特意 使 用 AP 服务 器 来 分 别管 理 所 有 的 Slave 


o。 应 用 程序 端 无 需 考 虑 Slave 的 工作 状态 
由 于 负载 均衡 会 进行 恢复 工作 (通过 监控 分 发 集群 的 状态 ， 万 一 
发 生 情 况 就 用 备用 的 Slave 顶替 遭遇 故障 的 设备 ) ， 因 此 并 不 需要 
在 应 用 程序 端 进行 监控 或 分 发 处 理 
o。 可 以 进行 更 加 平衡 的 分 发 
由 于 使 用 了 “分 发 到 连接 数 最 小 的 Slave 上 ”的 策略 ， 因 此 可 实现 更 
均衡 地 分 配 负载 。 在 Web 应 用 程序 端 进行 分 发 时 ， 若 连接 数 超出 
了 进程 或 AP 服务 器 的 负载 ， 就 很 难 实现 均衡 地 分 发 
通过 以 该 方式 部 署 ， 不 仅 可 以 使 应 用 程序 端的 处 理 减 少 ， 还 可 以 使 应 
用 程序 端 不 用 得 知 Slave 集群 的 状态 。 例 如 ， 在 需要 增加 Slave 的 情况 
下 ， 应 用 程序 端 不 用 做 出 任何 准备 ， 只 要 使 用 负载 均衡 器 ， 通 过 下 述 
的 作业 过 程 就 能 完成 所 需 的 处 理 。 
因此 ， 下 文 将 对 内 部 负载 均衡 器 进行 深入 讲解 。 
2.4.2 ”通过 负载 均衡 器 将 请 求 分 发 到 多 人 台 Slave 的 方法 
以 下 将 介绍 通过 内 部 负载 均衡 器 将 请 求 分 发 到 多 台 Slave 的 方法 。 
概况 图 
图 2.4.1 是 相关 的 结构 图 。 
。AP : 发 送 请 求 的 Web 应 用 程序 
db100: MySQL 的 Master 数据 库 服务 器 
db101、db102: MySQL 的 Slave 数据 库 服 务 器 
db100-s : Slave 集群 所 捆绑 的 虚拟 Slave 名 


11、12: 内 部 负载 均衡 器 。 通 过 11、]12 构成 VRRP 的 Active/Backup 
结构 ，VIP 为 lls(192.168.31.230) 


Create 
Update 
Delete 


VIP: 192.168.31.230 (lis) 
192.168.31.119 ( db100-s )} 


图 2.4.1 通过 负载 均衡 器 将 请 求 分 发 到 多 台 Slave 

在 MySQL 的 分 发 架构 中 ， 存 在 一 台 Master (db100) 与 两 台 Slave 
(db101、db102) 。 处 理 客户 端 请 求 的 AP 将 修改 类 的 请 求 (Create 、 

Updata、Delete) 分 配 到 Master， 将 查询 类 的 请 求 (不 破坏 数据 的 语句 ) 分 

配 到 Slave。 而 且 并 不 直接 连接 到 Slave， 而 是 经 由 内 部 负载 均衡 器 (lls) 进 

行 访 问 。 内 部 负载 均衡 器 lls 能 监控 Slave 集群 是 否 正常 工作 ， 并 恰当 地 将 

请 求 分 发 到 Slave 上 。 

本 节 使 用 的 MySQL 的 版 本 是 5.0.45，keepalived 的 版 本 是 1.1.15 。 

内 部 负载 均衡 器 的 配置 

ls (li 与 12) 的 keepalived.conf 的 设 定 如 代码 清单 2.4.1 所 示 。 


代码 清单 2.4.1 lls 的 keepalived.conf 的 设 定 


### basic section 
vrrp_instance VI { 
state BACKUP 
interface etho 
garp_master_delay 5 
virtual router_id 230 -©@ 


priority 100 
nopreempt 
advert_int 1 
authentication { 
auth_type PASS 
auth_pass himitsu 


virtual_ ipaddress { ——— 
192.168.31.230/24 dev etho | -© 

192.168.31.119/24 dev etho | 
| 


= 


} 

### MySQL slave section 

virtual_ server_group MYSQL100 { 
192.168.31.119 3306 


virtual server group MYSQL100 { 
delay_loop 3 


lvs_sched rr 

lvs_method DR -© 

protocol TCP 

real_server 192.168.31.111 3306 { 
weight 1 
inhibit_on_failure 
TCP_CHECK { 


connect_port 3306 
connect_timeout 3 


} 
real_server 192.168.31.112 3306 { 


weight 1 

inhibit_on_failure 

TCP_CHECK { 
connect_port 3306 
connect_timeout 3 


首先 请 看 “basic" 代 码 块 。 在 此 代码 块 中 ， 设 定 了 lls 即 负载 均衡 右 的 基本 行 


为 。 需 要 留意 的 是 代码 清单 2.4.1 中 @ 处 的 virtual router id 所 指定 的 VRID 
(Virtual Router ID ， 路 由 器 集群 识别 标示 符 ) 。 


在 该 VRRP 中 ， 虚 拟 路 由 器 采用 与 VRID 相同 节点 (路 由 ) 的 集群 结构 
(在 VRRR 协议 中 ，VRID 是 VRRP 路 由 的 唯一 标识 ) 。 因 此 在 同一 网 络 

的 网 段 中 ， 每 个 虚拟 路 由 器 集群 的 VRID 都 必须 不 同 。 知 外 部 负载 均衡 需 

等 已 经 存在 虚拟 路 由 器 集群 的 话 ， 请 确保 将 virtual_router_id 设 定 为 不 同 的 


值 。 可 以 通过 使 用 tcpdump 查看 VRRP 报 文 ， 像 图 2.4.2 那样 查看 实际 正 
在 使 用 的 VRID。 


lls# tcpdump -n proto \\vrrp 
00:59:42.164341 IP 192.168.31.231 > 224.0.0.18: VRRPVv2, Advertisement, 
vrid 230, prio 100, authtype simple, intvl 1s, length 24 


图 2.4.2 使 用 tcpdump 查看 VRRP 报 文 


在 basic 代码 块 中 还 有 一 个 重点 ， 即 代码 清单 2.4.1 中 @ 处 的 

virtual_ipaddress。 这 里 同时 设 定 了 内 部 负载 均衡 器 目 身 的 虚拟 路 由 器 地 址 
(192.168.31.230) 和 虚拟 Slave (db100-s) 所 用 的 卫 地 址 
(192.168.31.119) 。 


接 下 来 是 <MySQL slave” 代 码 块 ， 这 里 并 没有 什么 需要 特别 注意 的 地 方 。 
virtual_server_group 中 指定 了 虚拟 Slave 所 使 用 的 IP 地 址 与 端口 号 ， 下 面 的 
virtual_server 中 指定 了 真实 服务 器 〈Slave) 。 本 例 中 是 通过 使 用 
TCP_CHECK 查看 TCP_CHECK 的 3306 端口 是 否 启动 来 对 真实 服务 器 进行 
状态 监控 的 ， 若 需要 更 加 严密 的 监控 ， 可 以 写 个 脚本 来 确认 实际 发 出 的 请 
求 是 否 得 到 了 回应 ， 具 体 可 以 在 脚本 中 通过 MISC_CHECK 等 方式 进行 。 


MySQL Slave 的 设 定 
从 内 部 负载 均衡 器 的 角度 来 看 ， 必 须 对 真实 服务 器 ， 即 MySQL Slave 服务 
器 进行 配置 


虽然 MySQL 的 服务 并 不 需要 进行 特别 的 设置 ， 但 如 代码 清单 2.4.1 中 的 目 
所 示 ， 因 为 设 定 了 “DSR” 的 分 发 ， 所 以 必须 确保 虚拟 Slave 的 IP 地 址 能 
够 正名 收 到 报 文 。 具 体 来 说 ， 需 要 对 Slave (db101、db102) 执行 以 下 命 


~ 


18 在 DRS 结构 中 ， 将 lvs_method 指定 为 “DR”， 而 不 是 “DSR”( 请 参考 1.3 节 ) 。 


iptables -t nat -A PREROUTING -d 192.168.31.119 -j REDIRECT 


体验 将 请 求 分 发 到 多 台 Slave 的 负载 均衡 


以 上 设 定 完毕 后 ， 即 可 体验 负载 均衡 了 。 这 里 为 了 直观 地 进行 确认 ， 将 分 
发 对 象 Slave 的 server_idl 结合 其 主机 名 db101 与 db102 命名 为 101 和 
102。 在 访问 该 server id 时 ， 将 会 把 请 求 发 送 到 虚拟 Slave (db100-s) 上 ， 
下 面 我 们 来 确认 是 否 确 实 进行 了 分 发 处 理 (图 2.4.3) 


19 通过 my.cnf 指定 的 MySQL 的 相关 参数 。 在 进行 复制 同步 等 操作 的 时 候 ， 通 常 被 用 
引 。 具 体 在 2.3 节 中 有 说 明 。 


: 别 服务 


Kao 


澡 


w101$ check_1b_slave() { 
> echo 'SHOW VARIABLES LIKE "server_id"' | mysdql -s -hdb100-s 


> } 

w101$ check_lb_slave 
server_id 101 
w101$ check_lb_ slave 
server_id 102 
w101$ check_lb_slave 
server_id 101 


图 2.4.3 体验 将 请 求 分 发 到 多 人 台 Slave 的 负载 均衡 


虽然 是 向 同一 台 虚 拟 服 务 器 (db100-s) 发 送 请 求 ， 但 由 于 server id 的 值 不 
同 ， 因 此 也 可 确认 负载 均衡 是 否 完成 了 分 发 的 工作 。 


2.4.3 ”内 部 负载 均衡 器 的 注意 点 ..…. 基 于 DSR 的 分 发 方法 


相对 于 外 部 负载 均衡 器 ， 内 部 负载 均衡 器 也 有 需要 特别 注意 的 要 点 ， 即 分 
发 策略 为 DSR (lvs_method DR) ， 而 不 是 NAT (lvs_method NAT) 


在 使 用 NAT 策略 的 情况 下 ， 从 客户 端的 角度 来 看 ， 由 于 报 文 送出 后 会 从 不 
同 的 对 象 返回 应 答 ， 因 此 无 法 再 次 处 理 返 回 的 报 文 。 


具体 来 说 ， 假 设 有 客户 端 向 终点 VIP 地 址 发 出 请 求 报 文 ， 若 使 用 NAT 筑 

略 ， 在 人 负载 均衡 收 到 该 报 文 后 ， 会 把 终点 地 址 转换 为 真实 服务 器 的 IP 地 址 
再 传送 给 真实 服务 右 。 虽 然 真实 服务 万 在 接 到 报 文 后 会 返回 应 答 ， 但 所 返 
回 的 报 文 的 起 始 地 址 却 变 成 了 真实 服务 器 的 地 址 。 如 末 该 返回 的 报 文 经 由 

负载 均衡 器 ， 则 起 始 地 址 会 转换 为 VIP， 不 会 引发 问题 ， 但 大 真实 服务 器 与 
客户 端 存在 于 同一 网 络 中 ， 则 没 必要 经 过 负载 均衡 器 ， 而 是 直接 将 报 文 送 
到 客户 端 上 ， 这 样 束 会 导致 送 往 VIP 的 报 文 由 不 同 于 VIP 的 地 址 (真实 服 
务 器 的 全 地 址 ) 返回 了 应 答 。 


讲 到 这 里 想必 大 家 都 能 领会 7 ， 没 错 ， 我 们 需要 的 正 是 一 种 名 为 DSR 的 报 
文 的 传输 形式 。 只 要 使 用 DSR 的 分 发 方法 ， 束 不 会 有 任何 问题 ， 都 可 以 正 
常 地 啊 应 该 报 文 。 虽 然 使 用 NAT 的 情况 下 稍 加 努力 也 能 实现 这 种 效果 ， 但 
使 用 DSR 可 以 明显 减轻 负载 均衡 夯 的 负载 ， 所 以 在 使 用 内 部 负载 均衡 大 
时 ， 没 必要 费 尽心 力 地 去 应 用 NAT 的 拓扑 结构 。 


2.5 ”选择 轻 量 高 速 的 存储 服务 器 


2.5.1 存储 服务 器 的 必要 性 
在 派发 大 容量 文件 (例如 视频 或 音乐 等 ， 的 服务 中 ， 内 容 文 件 如 何 存 储 时 
常 是 个 很 重要 的 课题 。 特 别 是 在 负载 分 发 的 环境 下 ， 同 一 个 文件 必须 存放 
0 服务 器 中 ， 如 果 文 件 的 数量 及 容量 都 非常 大 的 话 ， 则 将 面 对 以 
问题 |: 
。 部 署 到 所 有 Web 服务 器 将 花费 很 多 时 间 
。 必须 在 所 有 Web 服务 器 上 配置 大 容量 硬盘 


。 鉴于 Web 服务 器 上 的 所 有 文件 都 混杂 在 一 起 ， 根 据 需要 将 其 分 离 存放 
比较 麻烦 


。 增设 web 服务 器 比较 麻烦 (复制 及 同步 文件 很 花 时 间 ) 
虽然 将 所 有 的 数据 都 存储 在 MySQL 等 的 数据 库 服 务 器 中 会 方便 许多 ,但 从 
取 用 与 维护 的 便利 性 来 考虑 ， 在 大 多 数 情 况 下 还 是 希望 以 文件 的 形式 进行 
存储 。 在 此 情况 下 ， 通 稍 的 拓扑 结构 是 使 用 大 容量 的 存储 服务 郁 作 为 文件 
的 存储 ， 各 Web 服务 占 通 过 挂 载 这 些 存 储 服务 器 来 将 文件 读 出 。 


可 惜 的 是 ， 系 统管 理 者 通 肖 会 说 “最 好 还 是 别 用 存储 服务 右 吧 ”。 其 理由 如 


。 当 存储 服务 器 发 生 故 障 时 通常 殊 及 面 很 广 
。 万 一 数据 丢失 ， 恢 复 要 花费 大 量 时 间 和 精力 
。 存储 服务 器 易 产 生 瓶 颈 

。 商用 产品 较为 高 价 


存储 服务 僚 容 易 导 致 瓶颈 ， 还 容易 造成 单 点 故障 。 越 是 考虑 发 生 问题 时 的 
对 存储 服务 句 的 应 用 束 越 慎重 。 下 文 将 探讨 存储 服务 右 发 生 故 
章 时 的 细 广 。 


存储 服务 器 容易 导致 单 点 故障 


在 web 服务 器 挂 载 到 存储 服务 器 (NFS) 上 时 ， 若 存储 服务 器 因 故 停止 运 
作 ， 将 会 造成 很 严重 的 事态 。 以 下 引用 man nfs 的 介绍 。 


soft : 如 采访 问 NFS 文件 的 操作 没有 人 被 服务 右 做 出 啊 应 ， 将 对 调用 的 程序 
返回 IO 错误 。 默 认 一 直 重 试 对 文件 的 操作 


hard : 如 果 访 问 NFS 文件 的 操作 没有 被 服务 强 做 出 响应 ， 将 在 控制 台 上 显 
os not responding”， 同 时 也 会 继续 重 试 对 文件 的 操作 ， 直 到 服务 器 做 
啊 应 为 止 


intr : 如 果 访 问 NFS 文件 的 操作 超时 ， 而 且 其 NFS 链接 的 命令 为 hard， 则 
请 求 ， 在 中 断 的 情况 下 对 应 用 程序 返回 EINTR， 默 认 不 允许 


ee 引 自 man nfs 


也 就 是 说 ， 在 存储 服务 器 停止 期 间 ，Web 服务 器 将 会 无 限 重 试 对 NFS 的 文 
件 操作 。 其 结果 会 造成 Web 服务 器 访问 文件 的 等 行 时 间 变 长 ， 进 而 造成 无 
法 浏览 其 他 页 面 的 情况 《服务 停止 ) 。 另 外 在 文件 操作 不 能 中 断 (intr 没有 
被 指定 ) 的 情况 下 ， 也 会 导致 Apache 无 法 重启 。 


虽说 将 挂 载 选项 指定 为 soft 或 intr 能 够 在 一 定 程度 上 改善 问题 ， 但 在 NFS 
被 作为 操作 系统 的 功能 (文件 系统 ) 装载 的 情况 下 ， 调 整 Web 应 用 程序 的 
超时 时 间或 中 止 文件 操作 并 不 可 行 。 因 此 在 文件 操作 超时 前 的 等 待 时 间 
中 ， 若 Web 服务 器 的 进程 数 超出 限制 ， 就 会 导致 服务 停止 。 


存储 服务 器 容易 造成 瓶颈 


存储 服务 器 不 仅 容 易 导 致 单 点 故障 ， 还 易 出 现 瓶 颈 的 问题 。 虽 然 Web 服务 

器 的 状态 可 以 被 监控 ， 比 如 可 以 同时 监控 10 台 、20 台 Web 服务 器 的 状 

态 ， 但 NFS 服务 器 却 不 能 被 监控 ， 所 以 此 处 知 出 现 瓶 绒 ， 再 去 挽救 是 很 困 

难 的 。 如 图 2.5.1 所 示 ， 虽 然 可 以 考虑 增设 NFS 服务 器 的 方法 ， 但 实际 上 不 
能 解决 的 问题 有 很 多 。 这 是 由 于 访问 量 集中 的 内 容 大 多 都 是 才 更 新 的 新 内 

容 或 者 是 具有 某 种 推广 效果 的 内 容 。 也 就 是 说 ， 在 访问 比较 集中 的 情况 


下 ， 会 有 很 多 用 户 同 时 请 求 同 一 数据 ， 即 便 根据 目录 对 NFS 服务 右 进 行 了 
区 分 ， 也 依然 会 造成 用 户 的 访问 请 求 集 中 于 同一 台 NFS 服务 右 


O 


mount -t nfs nfs1> mnt/nfs1 
mount -t nfs nfs2 /mnt/nfs2 
mount -t nfs nfs3:f /mntinfs3 


图 2.5.1 NEFS 服务 器 的 增设 案例 


另外 ， 如 采 仅 考虑 负载 问题 的 话 ， 如 图 2.5.2 所 示 ， 虽 然 可 以 根据 Web 服务 
左 区 分 所 挂 载 的 NFS 服务 器 ， 但 这 种 拓扑 结构 会 造成 无 法 确 休 多 台 NFS 服 
务 器 中 文件 的 整合 性 。 在 打开 内 容 时 ， 必 须 同 所 有 的 NFS 服务 絮 传 送 同样 
的 文件 。 而 当 文件 数量 达到 相当 庞大 的 规模 时 ， 确 保 所 有 服务 右 的 内 容 相 
同 将 会 古 很 困难 的 工作 。 


必须 确保 文件 同步 


图 2.5.2 NES 服务 器 的 分 发 示例 


2.5.2 ”理想 的 存储 服务 器 
综 上 所 述 ， 理 想 的 存储 服务 器 究竟 是 怎样 的 呢 ? 
。 在 大 量 访问 到 来 时 也 依然 快速 ， 不 会 出 现 瓶颈 
。 能 避免 针对 多 人 台 服 务 器 的 文件 同步 工作 
。 能 避免 单 点 故障 的 出 现 
。 若 能 用 开源 软件 实现 就 更 好 了 
下 文 将 逐步 介绍 满足 以 上 要 求 的 存储 服务 器 NFS 的 建立 。 
减轻 负载 


就 许多 Web 网 站 而 言 ， 最 希望 谋求 的 是 存储 服务 器 的 “ 读 取 速度 "和 “磁盘 容 
量 *"， 而 没 必要 追求 存储 服务 器 的 “ 写 入 速度 ”。 


需要 高 速写 入 的 数据 通常 是 “会 话 信息 ”以 及 “个 人 信息 ”等 。 由 于 会 话 信息 是 
临时 的 数据 ， 所 以 使 用 memcached 等 的 缓存 服务 器 即 可 ; 而 个 人 信息 则 放 
到 数据 库 中 更 为 合适 。 也 束 是 说 ， 只 要 存储 服务 紫 能 大 量 存储 视频 、 首 频 
等 较 大 容量 的 数据 ， 旦 能够 将 必要 的 数据 快速 读 出 束 可 以 了 。 


如 此 这 般 确 实 能 大 幅 减 轻 Web 服务 器 的 负载 量 。 在 使 用 存储 服务 器 时 ， 例 
如 在 面向 NFS 的 平台 开发 Web 应 用 程序 时 ， 使 用 诸如 Jave 或 PHP 等 语 

也 可 以 像 处 理 普通 资料 一 样 处 理 web 服务 器 上 的 资料 ， 因 此 通过 
HTTP 来 操作 文件 这 种 方式 ， 开发 者 想必 也 会 很 快 适应 的 。 


2.5.3 将 HTTP 作为 存储 协议 使 用 


通过 以 上 的 说 明 可 以 看 出 ， 通 过 在 存储 服务 器 上 搭建 微型 Web 服务 器 ， 就 
可 以 大 致 解决 性 能 方面 的 问题 。 我 们 在 这 里 构建 了 如 图 2.5.3 的 系统 ， 图 

2.5.3 中 的 “WwWS” 就 是 存储 服务 器 。 虽 然 文 件 的 写 入 需要 NEFS， 但 没 必 要 在 所 
有 的 服务 器 上 都 挂 载 ， 只 需 在 将 文件 上 传 到 服务 器 时 挂 载 足以 。 图 2.5.3 

的 <Master* 就 是 这 样 设 置 的 ， 其 他 的 服务 器 (Web 服务 器 ) 并 不 使 用 NFS， 

而 是 在 WS 中 经 由 HTTP 来 获取 文件 。 


图 2.5.3 结合 了 NFS 和 HTTP 的 存储 服务 器 
轻 量 Web 服务 器 的 选择 
在 WS 中 所 使 用 的 Web 服务 器 均 需 要 轻巧 快速 。 即使 没有 Apache 那样 腾 肿 


的 各 项 功能 也 没有 关系 。 因此 需要 舍弃 CGI、SSL 等 动态 网 页 生成 的 功 
能 ， 只 要 确保 能 高 速 稳定 地 传输 静态 文件 即 可 。 在 笔者 的 环境 中 ， 通 过 使 
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用 thttpd ”来 提供 HTTP 的 访问 ， 就 能 够 显著 提升 性 能 。 九 
集中 时 段 ， 更 能 表现 其 绝 佳 的 处 理性 能 。 


20 URL http://www.acme.com/software/thttpd/ 


在 前 文中 提 到 了 在 访问 量 集 中 时 ， 用 户 会 集中 请 求 同 一 数据 ， 即 会 出 现 同 
一 文件 被 反复 读 取 的 访问 模式 。 该 数据 基本 上 部 被 缓存 到 了 存储 服务 右 的 
内 存 中 。 由 于 thttpd 可 以 将 存储 服务 器 内 存 中 的 数据 直接 传送 ， 因 此 并 未 加 
重 存储 服务 万 磁盘 IO 的 负担 ， 这 样 便 解 决 了 存储 服务 万 的 瓶 领 问题 。 


利用 HTTP 的 优势 
与 NFS 相 比 ， 可 以 说 HTTP 是 服务 器 和 客户 端 之 间 的 桥 染 。 在 Web 服务 露 
所 挂 载 的 NFS 宕 机 的 情况 下 ，NFS 服务 器 停止 会 造成 文件 系统 上 的 处 理 停 
止 ， 即 便 重 局 Apache 也 无 法 解决 该 问题 。 
但 若 使 用 HTTP 的 话 ， 在 Web 应 用 程序 端 就 能 自由 地 设 定 超时 时 间 ， 从 而 
很 容易 就 能 检查 出 存储 服务 器 的 异常 情况 并 返回 错误 信息 ， 以 此 便 能 在 一 
定 程度 上 回避 因为 存储 服务 器 故障 而 引发 整个 网 站 停止 服务 的 风险 。 
2.5.4 ”遗留 的 问题 
至 此 我 们 已 经 实现 了 “即便 出 现 大 量 访问 也 不 会 引起 服务 器 瓶颈 的 高 速 存储 
服务 器 ”， 但 仍 不 知 如 何 “ 规 避 单 点 故障 ”及 “避免 多 台 服 务 器 文件 同步 ”。 这 
两 个 问题 是 相互 制约 的 ， 若 不 想 造 成 单 点 故障 就 需要 增设 更 多 的 服务 器 ， 
但 增设 更 多 的 服务 器 又 会 带 来 多 台 服 务 器 文件 同步 的 麻烦 。 要 解决 这 些 问 
题 ， 需 要 更 高 级 的 策略 。 
这 两 个 问题 我 们 留 到 3.2 节 来 解决 。 

专栏 

选择 小 巧 轻 便 的 web 服务 器 

以 下 软件 均 为 小 巧 轻便 的 Web 服务 器 : 


。 khttpd (图 A) URL http://www.fenrus.demon.nl/ 


a 


kH TT pd Linux HTTP Accelerator 区 


Introduction 


kHTTPd is a http-daemon {webserver) for Linux. kHTTPd is different from other webservers 
in that it runs from within the Linux-kernel as a module (device-driver). 


kHTTPd handles only static (file based) web-pages, and passes all requests for non-static 
information to a regular userspace-webserver such as Apache or Zeus. 


Static web-pages are not a very complex thing to serve, but these are very important 
nevertheless, since virtually all images are static, and a large portion of the htmiHpages are 
static also. A "regular" webserver has litte added value for static pages, it is simply a "copy file 
‘to network"-operation. The Linux-kernel is very good at this, for example the nfs (network file 
‘system) daemon also runs in the kernel. 


By “accelerating" the simple case within the kernel, userspace daemons can do what they are 
‘very good at Generating user-specific, dynamic content 


A khttpd 


。thttpd (图 B) URL http:/www.acme.com/software/thttpd/ 


图 B thttpd 


。lighttpd (图 C) URL http:/www.lighttpd.net/ 


IMPORTANT all 1.4.x users should upgrade to 1.4.19, all users of 1.5-svn 


> should at least upgrade to r1922. 


|| H | | PD Security, speed, compliance, and flexibility -- all of these describe lighttpd (pron. 
lighty) which is rapidly redefining efficiency of a webserver'; as it is designed and 
fy liaht. optimized for high performance environments. With a small memory footprint 


compared to other web-servers, effective management of the cpu-load, and 
advanced feature set (FastCGI, SCGI, Auth, Output-Compression, URL-Rewriting 


Search and many more) lighttpd is the perfect solution for every server that is 
suffering load problems. And best of all its Open Source licensed under the 
Sections revised BSD license. 
Web 2.0 
lighttpd powers several popular Web 2.0 sites like YouTube, wikipedia and 
meebo. lts high speed io-infrastructure allows them to scale several times better 
with the same hardware than with alternative web-servers. 
This fast web server and its development team create a web-server with the 
Sites needs of the future web in mind: 


e Faster FastCGI 
® COMET meets mod_mailbox 
。 Async IO 


图 C lighttpd 


首先 是 khttpd， 它 是 作为 Linux 的 内 核 模块 安装 的 Web 服务 右 。 正 是 
由 于 它 是 作为 内 核 执 行 的 ， 因 此 具备 强劲 的 性 能 。 但 由 于 涉及 内 核 可 
能 会 导 人 致死 机， 本 来 可 以 期 待 在 以 后 的 版 本 中 加 以 改善 ， 但 可 惜 的 是 
在 内 核 2.5 的 时 候 已 经 删除 了 相关 代码 ，2.6 版 时 就 已 经 完全 消失 了 ， 
因此 笔者 不 得 不 放弃 对 它 的 使 用 。 虽 然 此 设想 很 值得 玩味 ， 但 在 内 核 
空间 处 理应 用 程序 协议 方面 好 像 还 存在 一 些 问题 。 


thttpd 和 lighttpd 都 是 轻巧 快速 的 Web 服务 器 软件 。 至 于 选择 哪个 确实 
很 伤 脑筋 。 根 据 笔者 的 亲自 验证 ， 二 者 在 性 能 上 几乎 没有 区 别 。 虽 然 
lighttpd 的 功能 更 多 ， 但 鉴于 thttpd 更 简单 易 用 ， 于 是 笔者 选择 了 
thttpd。 


第 3 章 ”进一步 完善 不 间断 的 基础 设 
` 存储 服务 硕 、 网 


3.1 DNS 服务 器 的 元 余 


3.1.1 DNS 服务 器 元 余 的 重要 性 


虽说 DNS 服务 右 的 故障 并 不 那么 常见 ， 但 一 旦 发 生 问 题 束 要 人 花 很 长 时 间 才 
能 查 明 原因 。 为 了 实现 不 间断 的 基础 设施 ， 将 DNS 服务 器 进行 元 余 处 理 十 
分 必要 。 本 世 我 们 将 围绕 看 下 列 几 点 来 探讨 DNS 服务 右 的 见 余 。 


。 利用 解析 库 (Resolver Library) 进行 元 余 ， 有 降低 性 能 的 风险 
。 基于 服务 器 集群 实现 DNS 的 元 余 
-> 利用 VRRP 的 拓扑 结构 
~ DNS 服务 器 的 负载 分 发 
3.1.2 ”使 用 解析 库 实 现 元 余 及 存在 的 问题 


为 了 实现 DNS 的 元 余 ， 可 像 图 3.1.1 那样 在 /etc/resolv.conf 中 指定 多 个 DNS 
服务 器 。 应 用 程序 进行 域名 解析 时 使 用 的 解析 库 ， 会 以 /etc/resolv.conf 为 准 
取得 目的 DNS 服务 器 。 具 体 在 man resolv.conf 中 有 下 列 说 明 ， 请 留意 
有 关 同 时 指定 多 个 DNS 服务 器 的 说 明 。 


name server (域名 服务 器 ) 的 IP 地 址 


name server 的 网 络 上 的 卫 地 址 (采用 圆 点 记 法 ) ， 可 以 被 解析 。 最 多 有 
MAXNS 台 (目前 为 3 台 ， 具 体 请 查看 <resolv.h>) 可 以 被 列 出 来 ， 每 个 name 
server 都 对 应 有 name server 关键 字 ， 在 列 出 多 个 name servers 时 ， 解 析 占 将 
会 按照 所 列 出 的 顺序 解析 这 些 name server ( 轮 询 ) 。 当 name server 为 空 

时 ， 默 认 使 用 本 地 的 name server 〈 这 里 使 用 的 算法 如 下 : 首先 尝试 访问 
name server， 若 访问 超时 ， 则 尝试 访问 下 一 条 name server， 直 到 最 后 一 

条 。 至 此 还 未 出 现 应 答 的 情况 下 ， 将 重复 查询 所 有 的 name server， 直 人 到达 
到 最 大 重 试 次 数 。) 


人 引 自 man resolLv,conf 


DNS 服务 器 1 DNS 服务 器 2 
192.168.0.201 192.168.0.202 
[ /etc/resolv.conf J] 


nameserver 192.168.0.201 
nameserver 192.168.0.202 


ll 


图 3.1.1 两 台 DNS 服务 器 的 拓扑 结构 


解析 库存 在 的 问题 
因为 事先 指定 了 多 台 DNS 服务 右 ， 者 一 台 DNS 服务 器 宕 机 ， 也 不 影响 域 
名 的 解析 。 


但 是 ,“ 奉 访问 超时 ， 则 壬 试 解 析 下 一 条 name server" 这 一 行为 可 能 会 市 来 
一 些 问 题 。 若 首 条 指定 的 DNS 服务 器 宕 机 ， 那 必须 要 等 超时 过 后 (默认 为 
5 秒 ) 才能 轮 到 下 一 条 服务 器 。 这 个 等 待 的 时 间 对 于 服务 器 集群 来 说 是 造成 
人 下 面 以 一 个 简单 的 邮件 服务 器 (Mail Server) 为 例 来 说 

月 。o 


性 能 下 降 的 危险 性 .….. 以 邮件 服务 器 为 例 

邮件 服务 器 在 发 出 邮件 时 ， 将 访问 两 次 DNS， 如 下 所 示 : 

@ 查询 目的 地 址 的 域名 所 对 应 的 MX 记录 

@ 从 MX 的 结果 中 查询 A 记录 以 获取 目标 服务 器 的 IP 地 址 


例如 ， 假 设 此 邮件 服务 器 在 1 小 时 内 必须 发 送 1000 封 邮 件 ， 那 么 最 低 也 要 
3 秒 发 送 一 封 。 若 ect/resolv.conf 指定 的 DNS 服务 器 有 一 台 停 止 工作 ， 那 
么 每 次 发 送 都 将 出 现 5 秒 钟 的 超时 时 间 ， 即 送出 该 信 可 能 需要 花费 10 秒 
人 360 封 而 已 ， 处 理性 能 还 不 到 期 


这 个 例子 虽然 有 点 极 闪 ， 但 很 能 说 明 即 使 引入 高 性 能 服务 各 ， 也 不 能 阻挡 
一 人 台 DNS 发 生 故 障 时 造成 的 性 能 下 降 。 


DNS 故障 会 造成 很 大 的 影响 


性 能 下 降 时 不 会 出 错 ， 因 此 故障 无 法 被 及 时 发 现 。 在 上 述 邮 件 服务 器 的 例 
子 中 ， 即 使 邮件 服务 絮 的 性 能 显著 下 降 ， 邮 件 发 送 工 作 也 能 完成 ， 系 统 并 
未 停止 运作 。 因 此 当 管 理 人 员 察 觉 到 邮件 服务 器 性 能 下 降 而 去 调查 原因 

上 时， 无 论 他 如 何 答 查 邮件 服务 器 的 设 定 ， 可 能 也 发 现 不 了 任何 显 性 的 噶 
JI 天” 


DNS 服务 器 的 故障 不 仅 影响 极 大 ， 而 且 故 障 原因 的 确定 也 很 费时 间 ， 因 此 
一 定 要 多 加 注意 。 


3.1.3 ”基于 服务 器 集群 的 DNS 宛 余 


如 前 所 述 ， 解 析 库 (DNS 客户 端 ) 在 察觉 到 DNS 服务 器 异常 时 ， 除 了 等 待 
超时 以 外 别 无 他 法 。 因 此 我 们 应 该 避免 将 解析 库 见 余 的 技术 应 用 于 服务 
器 。 


基于 服务 器 集群 的 匈 余 将 会 实施 DNS 服务 器 端 不 下 线 的 原则 。 下 文 将 介绍 
使 用 VRRP (请 参考 1.4 万) 的 拓扑 结构 与 使 用 负载 均衡 器 的 拓扑 结构 。 


3.1.4 ”使 用 VRRP 的 拓扑 结构 


图 3.1.2 是 使 用 VRRP 实现 DNS 服务 器 见 余 的 拓扑 结构 。 图 中 仪 将 Web 服 
务 器 及 邮件 服务 器 在 /etc/resolv.conf 中 设 定 为 VIP (192.168.0.200) 。VIP 
后 端 则 是 两 台 DNS 服务 器 ， 其 经 由 VIP 实现 了 宛 余 。 


图 3.1.2 的 结构 中 利用 了 第 1 章 介 绍 的 keepalived， 各 DNS 服务 器 都 预先 安 
装 了 keepalived。 下 面 将 以 代码 清单 3.1.1 为 例 来 启动 keepalived.conf， 首 先 
启动 的 服务 器 将 作为 Active 服务 器 被 分 配 VIP (192.168.0.200) 。 在 两 台 服 
关闭 Active 服务 器 ， 即 可 确认 是 否 能 够 正常 启动 故 
星 x 和 2 ° 


DNS 服务 器 DNS 服务 器 
192.168.0.201/24 ( DNS1 ) 192.168.0.202/24 ( DNS2 ) 


VIP 
192.168.0.200 


Web 服务 器 
192.168.0.1/24 
图 3.1.2 使 用 VRRP 的 宛 余 


代码 清单 3.1.1 DNS 服务 器 的 keepalived.conf 


vrrp_instance DNS { 
state BACKUP 
interface etho 
garp_master_delay 5 
virtual_router_id 200 
priority 100 
nopreempt 
advert_int 1 
authentication { 
auth_type PASS 
auth_pass HIMITSUDESU 


virtual ipaddress { 
192.168.0.200/24 dev etho 


} 


} 


在 该 状态 下 ， 当 Active 服务 器 的 keepalived 停止 时 会 发 生 故 障 转移 ， 但 并 
未 发 生 DNS 服务 的 故障 转移 。 因 此 需要 使 用 如 代码 清单 3.1.2 所 示 的 健康 
检查 脚本 。 在 代码 清单 3.1.2 的 脚本 中 ， 每 5 秒 都 会 使 用 dig 命令 确认 一 下 
自身 的 DNS 情况 ， 若 dig 命令 异常 结束 ， 则 keepalived 就 会 停止 ， 这 样 当 
DNS 服务 属 不 可 用 时 也 能 发 生 故 障 转移 。 


代码 清单 3.1.2 dns-check.sh 


#!1/bin/sh 
while true; do 
/usr/bin/dig +time=001 +tries=3 @127.0.0.1 localhost.localnet 
if [ “0” -ne “$2?” ]; then 
/etc/init.d/keepalived stop 
exit 


在 某 些 情况 下 ， 当 主 DNS 服务 器 停止 工作 时 ， 可 能 无 法 通过 虚拟 IP 让 备 
DNS 服务 器 来 完成 工作 〈 会 提示 超时 ) ， 这 种 问题 应 该 怎 
么 解决 呢 ? 


鉴于 DNS 服务 器 的 BINDI 会 在 系统 启动 时 通过 分 配 到 网 卡 IP 地 址 来 接收 
请 求 。 因 此 ， 即 便 在 BIND 运行 过 程 中 被 动态 分 配 了 了 PP 地址， 也 无 法 响应 
发 往 该 新 的 卫 地 址 的 DNS 请 求 。 所 以 在 发 生 故 障 转 移 时 ， 必 须 重启 
BIND 。 


1 BIND(Berkeley Internet Name Domain) 是 类 UNIX 系统 上 实现 的 域名 解析 服务 的 软件 包 。 


因为 Keepalived 在 发 生 故 障 转移 时 可 以 运行 任意 命令 ， 因 此 可 以 编辑 
keepalived.conf 文件 的 vrrp_instance 部 分 ， 添 加 下 面 的 语句 来 解决 这 个 问 
题 。 


notify_master "/etc/init.d/named restart" 


3.1.5 DNS 服务 器 的 负载 分 发 


在 Active/Backup 的 结构 中 ， 两 台 DNS 服务 絮 实 际 只 有 一 台 工 作 。 为 了 充 
分 利用 服务 器 资源 ， 接 下 来 将 介绍 如 图 3.1.3 所 示 的 Active/Active 的 负载 分 
发 结构 。 


192.168.0.200 因为 是 同一 分 段 
{ Segment ) 所 以 使 用 DSR 


VVeb 服务 器 DNS 服务 器 DNS 服务 器 
192.168.0.1/24 192.168.0.201/24 { DNS1 ) 1192.168.0.202/24 { DNS2) 


图 3.1.3 DNS 服务 器 负载 分 发 的 拓扑 结构 (Active/Active 拓扑 结构 ) 


与 Active/Backup 的 拓扑 结构 不 同 的 是 这 里 利用 了 人 负载 均衡 器 。 
Active/Backup 的 结构 中 ， 每 个 DNS 服务 器 都 安装 了 keepalived 并 为 其 分 配 
了 VIP ; Active/Active 的 拓扑 结构 中 则 将 VIP 分 配给 了 负载 均衡 右 。 这 无 
需 更 改 Web 服务 器 的 设 定 ， 只 需 像 之 前 那样 预先 将 VIP 指定 到 
ect/resolv.conf 中 即 可 。 由 于 同一 子 网 上 的 负载 分 发 不 便 选 择 NAT 拓扑 结 
构 ， 因 此 应 该 使 用 DSR 拓扑 结构 。 另 外 ， 在 各 个 DNS 服务 器 中 ， 为 了 能 
够 处 理发 往 VIP 的 数据 帧 ， 需 要 将 VIP (192.168.200/32) 分 配给 回 传 接口 
(Loopback Interface) ， 或 者 使 用 iptables 进行 重 定 向 (Redirect) 操作 等 。 


这 里 在 Linux 中 使 用 了 IPVS 及 keepalived 来 搭建 负载 均衡 器 ， 具 体 请 参考 
代码 清单 3.1.3 中 keepalived.conf 的 内 容 。 由 于 keepalived 并 不 文 持 DNS 的 
健康 检查 ， 可 以 使 用 dig 命令 通过 确认 MISC_CHECK 状态 来 实现 。 


代码 清单 3.1.3 ”负载 均衡 器 的 keepalived.conf 


virtual_ server_group DNS { 
192.168.0.200 53 


virtual server group DNS { 


delay_loop 5 
lvs_sched rr 
lvs_method DR 
protocol UDP 
real_server 192.168.0.201 53 { 
weight 1 
MISC_CHECK { 
misc_path "/usr/bin/dig +time=001 +tries=3 @192.168.0.201 
localhost.localnet" 
misc_timeout 5 


} 
real_server 192.168.0.202 53 { 
weight 1 
MISC_CHECK { 
misc_path "/usr/bin/dig +time=001 +tries=3 @192.168.0.202 
localhost.localnet" 
misc_timeout 5 


3.1.6 ”小结 
DNS 服务 絮 在 很 多 不 显眼 的 地 方 进行 着重 要 的 工作 。DNS 服务 器 所 用 的 软 


件 通 常 是 比较 稳定 的 ， 只 有 极 少数 会 出 现 意 外 故障 ， 因 此 人 们 对 DNS 服务 
万 的 故障 应 对 可 能 并 没有 做 过 多 考虑 。 


然而 一 旦 DNS 服务 器 发 生 故 障 ， 仪 查 明 原因 往往 都 会 化 费 很 多 时 间 ， 为 了 
不 在 故障 发 生 时 浪费 太 多 精力 ， 还 是 有 必要 提前 做 好 准备 的 。 


3.2 ”存储 服务 器 的 见 余 利用 DRBD 实现 镜像 


3.2.1 存储 服务 器 的 故障 排解 


存储 服务 器 中 存放 了 大 量 的 文件 ， 若 硬盘 故障 造成 数据 丢失 ， 恢 复 是 很 麻 
烦 的 。 为 了 能 有 效 恢复 数据 ， 及 时 备份 是 常规 手段 ， 但 要 恢复 所 有 文件 依 
然 很 花 时 间 。 而 且 一 旦 存储 服务 器 发 生 故 障 ， 涉 及 范围 通常 会 很 广 。 所 以 
一 般 会 使 用 RAID， 这 样 即便 硬盘 发 生 故 障 ， 数 据 也 不 会 丢失 。 


造成 故障 的 原因 也 不 仅仅 是 硬盘 问题 ，RAID 控制 器 也 有 可 能 发 生 故 障 。 当 
RAID 控制 器 发 生 故 障 时 ， 如 果 足 够 镁 运 ， 只 需 更 换 RAID 控制 器 即 可 解 


决 。 知 造成 了 无 法 写 入 硬盘 等 情况 ， 则 会 有 丢失 数据 的 危险 。 


当然 与 磁盘 相 比 ，RAID 控制 套 发 生 改 障 的 概率 极 低 ， 但 为 了 在 发 生 故 障 时 
保护 数据 ， 也 可 以 考虑 准备 两 台 存 储 服务 右 进 行 见 余 处 理 。 


3.2.2 ”存储 服务 器 同步 的 难点 


对 存储 服务 器 进行 元 余 的 难点 在 于 需要 持续 同步 两 台 服 务 器 的 数据 。 作 为 
最 易 实 施 的 方法 ， 可 以 采用 “将 数据 上 传 两 份 分 别 到 两 个 服务 器 上 ”的 广 
式 ， 但 持续 确保 数据 的 完整 性 较为 困难 。 如 果 上 传 程序 不 兼容 ， 则 有 可 能 
导致 只 将 文件 传 给 了 其 中 一 台 服 务 右 ， 必 外 操作 的 失误 也 可 能 会 造成 只 有 
一 人 台 服 务 器 的 数据 进行 了 更 新 。 


当 文 件数 及 容量 较 少 的 时 候 ， 疝 可 利用 简单 的 脚本 来 机 械 地 检查 一 致 性 ， 
但 当 有 成 千 上 万 个 文件 时 ， 数 据 容量 高 达 数 百 GB (Gigabyte) ， 这 种 情况 
下 要 做 到 此 类 检查 就 很 困难 。 在 无 法 检查 一 致 性 的 情况 下 ， 帮 继续 依赖 此 
设备 进行 同步 ， 可 信赖 性 整 会 大 大 降低 。 


3.2.3 DRBD 


在 两 台 服 务 硕 上 以 文件 为 单位 同步 磁盘 检查 一 致 性 时 ， 文 件数 越 多 搜索 目 
杂 束 越 伦 时 间 。 在 这 种 情况 下 ， 当 磁盘 超过 人 负载 时 ， 整 个 服务 右 的 性 能 就 
会 大 幅 下 跌 ， 而 使 用 DRBD (Distributed Replicated Block Device， 分 布 式 
复制 块 设备 ) “技术 即 可 解决 该 问题 。 


? URL http://www.drbd.org/ 
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以 下 是 从 DRBD 官网 引用 的 介绍 。 


DRBD 技术 为 实现 高 可 用 的 集群 提供 了 专属 的 块 设备 。 使 用 专用 的 网 
络 ， 可 以 在 两 台电 脑 的 块 设备 之 间 镜 像 数 据 。 简 单 理解 为 网 络 上 的 
RAID1 结构 即 可 。 


ee 引 目 http://www.drbd.jp/ 
DRBD 架构 


如 图 3.2.1 所 示 ，DRBD 由 Master 服务 器 及 备份 服务 郁 组 成 ， 分 为 以 下 两 种 
拓扑 结构 : 


。 内 核 模块 设备 驱动 程序 ) 


。 Userland 工具 (控制 程序 ) 


DRBD 并 非 以 文件 单位 来 传送 数据 ， 而 是 针对 块 设备 进行 实时 更 新 。 因 此 
在 文件 建立 或 更 新 时 ， 无 需 理会 DRBD 及 备份 服务 器 的 存在 。 


DRBD 的 镜像 是 Active/Backup 的 拓扑 结构 。 可 以 对 Active 端的 块 设备 进行 
数据 的 读 写 ， 而 Backup 端的 块 设备 则 不 会 被 访问 到 。 但 在 8.0.0 版 本 以 
后 ， 通 过 使 用 OCFS (Oracle Cluster File System) 及 GFS (Global File 
System) 等 的 文件 集群 系统 ， 开 始 支 持 Active/Backup 的 拓扑 结构 。 虽 然 本 
书 执笔 时 (2008 年 5 月 ) 的 最 新 版 是 8.2.5， 但 笔者 使 用 的 依然 是 0.7 版 的 
环境 ， 这 是 因为 当时 引入 这 项 技术 时 最 新 版 是 0.7。 


以 下 介绍 的 拓扑 结构 以 笔 者 系统 中 正在 运行 的 DRBD 0.7 版 拓扑 结构 为 准 ， 
关于 8.2 版 中 更 新 的 功能 及 设 定 也 会 随时 补充 说 明 。 另 外 ，DRBD 0.7 版 已 经 
2008 年 10 月 停 目 维护， 在 此 之 后 者 要 引入 这 项 技术 ， 请 使 用 最 新 版 


3.2.4 DRBD 的 设置 与 启动 


代码 清单 3.2.1 是 运行 DRBD 所 需 的 最 低 限 度 的 设置 。 具 体 请 在 
/etc/drbd.conf 2 Master 服务 器 及 备份 服务 器 。 


代码 清单 3.2.1 drbd.conf 


resource ro { 
protocol A; 
on wsi { 
device /dev/drbdo; 
disk /dev/sdb1; 
address 192.168.0.201:7789; 
meta-disk internal; 


on ws2 { 


device /dev/drbdo; 

disk /dev/sdb1; 

address 192.168.0.202:7789; 
meta-disk internal; 


由 于 仅 做 了 最 低 限 度 的 设 定 ， 所 以 代码 清单 3.2.1 显得 很 精简 。 具 体 各 个 项 
目的 意义 请 参考 表 3.2.1。 


表 3.2.1 drbd.conf 的 配置 项 目 


resource 资源 的 块 ， 在 此 定义 了 名 为 “r0” 的 资源 


数据 传送 的 协议 。 可 以 指定 为 A、B、C 三 种 ， 具 体 意 义 如 下 

“protocol A 本 地 磁盘 写 入 结束 ， 数 据 被 发 往 TCP 缓 冲 时 ， 表 示 写 入 操作 完成 
(重视 性 能 的 异步 传输 ) 
protecol B; 本 好 本 和 导入 结 来 数据 到 达 远 程 主机 时 ， 表 示 写 入 操作 完成 ( 介 
十 AC 之 旧 
。protocol C: 远程 主机 的 磁盘 上 也 完成 写 入 操作 时 ， 表 示 写 入 操作 完成 (重视 可 
靠 性 的 同步 传输 ) 


定义 各 个 主机 的 资源 的 块 。 这 里 指定 的 ws1 与 ws2 是 两 个 主机 名 。 通 过 uname -n 
科 输 出 结案 可 判断 标 主 以 on 开头 定义 的 主机 名 ) 是 否 取得 了 期 望 的 配置 


结果 


指定 DRBD 的 逻辑 块 设备 。 在 此 指定 的 是 运行 mkfs 和 mount 的 块 设 


指定 想 要 镜像 的 物理 设备 。 可 以 指定 任意 块 设备 ， 若 指定 回环 设备 (Loopback 
Device ) ， 则 需要 注意 可 能 产生 的 问题 


煞 据 同步 所 等 得 的 P 地 址 及 其 端 


指定 存储 元 数据 的 设备 。 已 人 定 internal 的 | 朝 ; ， 9 块 设备 为 
128MB 以 供 元 数据 使 用 。 在 8. ， 根 据 块 设 We 


变 


启动 DRBD 的 Master 服务 器 


DRBD， 首 先 在 Master 上 进行 以 下 操作 ， 图 3.2.2 是 实际 操作 


@ 启动 DRBD 
@ 切换 为 Primary 状态 


@ 在 /dev/drbd0 中 建立 文件 系统 
@ 将 /dev/drbd0 挂 载 (Mount) 到 /mnt/drbd0 


ws1:~# /etc/init.d/drbd start 
Starting DRBD resources: [ d0 SO ng ]. 


火 火 火炎 大 炎炎 大大 大 大 大 大 大 大 大 大大 大 大 大 大 大 大 大 大大 大 大 大 大 大 大 大 大 大 大 大 大 大 大火 大 大 大 大 大 大 大 大大 大 大 大 大 大 大 大 大 大 大 大 大 


DRBD'S startup Script waits for the peer node(s) to appear ， 

- In case this node was already a degraded cluster before the 
reboot the timeout is 0 seconds. [degr-wfc-timeout] 

- If the peer was available before the reboot the timeout will 
expire after 0 seconds. [wfc-timeout] 
(These values are for resource 'r0'; 0 sec -> wait forever) 

To abort waiting enter 'yes' [ 5]:yes 


ws1:~# drbdadm -- --do-what-I-say primary all (0.7 版 

ws1:~# drbdadm -- -0 primary all (8.2 版 

ws1:~# mkfs /dev/drbd0 

mke2fs 1.40-WIP (14-Nov-2006) 

< 中 间 省 略 > 

This filesystem will be automatically checked every 38 mounts or 
180 days, whichever comes first. Use tune2fs -c or -i to override. 
ws1:~# mount /dev/drbdo /mnt/drbd0/ 


图 3.2.2 DRBD 的 行为 


启动 DRBD 后 ， 首 先 请 连接 到 目标 镜像 。 在 第 一 次 安装 时 没有 对 象 存在 的 
情况 下 ， 会 出 现 “To abort waiting enter 'yes' ”这 条 信息 并 进入 
等 符 超 时 ， 这 时 输入 “yes ”以 中 断 。 启 动 完成 后 ，DRBD 为 “Secondary 状 
态 ”， 此 为 等 待 数据 从 Primary 状态 的 DRBD 流入 的 待机 状态 ， 该 状态 下 无 
法 写 入 及 读 取 块 设备 。 


为 了 将 文件 系统 进行 挂 载 操 作 ， 需 要 使 用 drbdadm 命令 切换 到 Primary 状 
态 。 通 常 切 换 到 Primary 状态 需要 使 用 drbdadm 的 primary 命令 , 但 在 

初次 建立 的 情况 下 ， 还 必须 开启 0.7 版 本 的 - -do-what -I-say 选项 ， 或 
者 8.2 版 本 的 -o 选项 。 成 功 切 换 到 Primary 状态 后 ， 即 可 对 /dev/drbd0 和 

/dev/drbd1 进行 相同 的 操作 了 。 


启动 DRBD 的 备份 服务 器 


同样 在 备份 服务 器 上 启动 DRBD， 至 此 Master 服务 器 与 备份 服务 器 的 同步 
就 开始 了 。 具 体 情况 可 以 参考 图 3.2.3 进行 确认 。 同 步 工 作 完 成 后 安装 也 就 


结束 了 。 如 果 在 Master 服务 器 的 /mnt/drbd0 中 建立 文件 并 写 入 数据 ， 数 据 
吏 会 被 传送 到 备份 服务 器 。 


Ws2:~# /etc/init.d/drbd start 
Starting DRBD resources: [ d0 SO ng ]. 
Ws2:~# cat /proc/drbdop 
version: 0.7.25 (api:79/proto:74) 
GIT-hash: 3a9c7c136a9af8df921b3628129dafbe212ace9f build by root@ 
WSs2, 2007-12-31 22:20:38 
0: cs:SyncTarget st:Secondary/Secondary ld:Inconsistent 


ns:0 nr:528 dw:528 dr:0 al:0 bm:0 10:0 pe:0 ua:0 ap:0 
] sync'ed: 0.7% (666832/667360)K 
finish: 0:27:47 Speed: 264 (264) K/sec 


图 3.2.3 确认 DRBD 的 同步 


3.2.5 ”DRBD 的 故障 转移 


DRBD 在 Master 服务 器 发 生 错 误 时 ， 并 不 会 目 动 切换 到 备份 服务 右 ， 因 此 
需要 使 用 keepalived 来 实现 故障 转移 。 


手动 切换 


在 实现 自动 进行 故障 转移 前 ， 首 先 请 尝试 手动 切换 。 为 了 实现 故障 转移 ， 
需要 将 Master 的 DRBD 切换 为 Secondary 状态 。 为 避免 块 设备 挂 载 失 败 ， 
需要 事先 停止 NFS 服务 器 〈 即 网 络 文件 服务 器 ) 并 取消 挂 载 。 本 处 理 的 脚 
本 如 代码 清单 3.2.2 所 示 ， 该 脚本 应 该 保存 在 两 台 服 务 器 的 
/usr/local/sbin/drbd-backup 中 。 


代码 清单 3.2.2 drbd-backup 


#!/bin/sh 
/etc/init.d/nfs-kernel-server stop 
umount /mnt/drbdo 

drbdadm secondary all 


将 备份 服务 器 作为 Master 服务 器 使 用 时 ， 需 要 将 DRBD 切换 到 Primary 状 
态 ， 并 在 确认 挂 载 块 设备 后 启动 NFS 服务 器 。 本 脚本 如 代码 清单 3.2.3 所 
示 ， 保 存在 两 台 服 务 器 的 /usr/local/sbin/drbd-master 中 。 


代码 清单 3.2.3 drbd-master 


#1!/bin/sh 
drbdadm primary all 
mount /dev/drbdo /mnt/drbd0 


/etc/init.d/nfs-kernel-server start 


为 了 更 加 容易 地 确认 数据 同步 ， 需 要 事先 在 Master 的 /mnt/drbd0 中 创建 恰 
当 的 文件 。 然 后 在 Master 服务 器 上 执行 drbd-backup 命令 ， 将 两 台 服 务 
器 切换 为 Secondary 状态 。 最 后 在 备份 服务 器 上 执行 drbd-master 命令 ， 
在 切换 到 Primary 状态 后 ，/dev/drbd0 就 会 被 挂 载 到 /mnt/drbd0 上 。 


至 此 应 该 已 经 在 Master 服务 器 上 建立 了 适当 的 文件 。 知 以 后 Master 服务 器 
发 生 故 障 ， 将 目 动 执 行 这 些 步 又 触发 故障 转移 。 下 文 将 介绍 利用 keepalived 
的 VRRP 功能 来 实现 NFS 服务 器 元 余 的 方法 。 


keepalived 的 配置 


图 3.2.4 是 将 NFS 服务 器 通过 VRRP 实现 元 余 的 例子 。 代 码 清单 3.2.4 是 本 
拓扑 结构 中 keepalived 的 配置 。VIP 为 192.168.0.200，NFS 客户 端 
192.168.0.200:/mnt/drbd0/ 已 经 挂 载 在 了 NFS 上 。 即 使 服务 器 发 生 故 障 转 
移 ，NFS 客户 端 也 无 需 重新 挂 载 。 


Master 服务 器 备份 服务 器 Master 服务 器 备份 服务 器 
192.168.0.201/24 192.168.0.202/24 192.168.0.201/24 192.168.0.202/24 
vip VIP 
192.168.0.200/24 192.168.0.200/24 


图 3.2.4 NFS 服务 器 的 元 余 
代码 清单 3.2.4 keepalived.conf (DRBD 用 ) 


vrrp_instance DRBD { 
state BACKUP 
interface etho 
garp_master_delay 5 
virtual_router_id 200 
priority 100 
nopreempt 
advert_int 1 
authentication { 
auth_type PASS 
auth_pass HIMITSU 


Virtual_ipaddress { 
192.168.0.200/24 dev etho 


notify_master "/usr/local/sbin/drbd-master" 
notify_backup "/usr/local/sbin/drbd-backup" 
notify_fault "/usr/local/sbin/drbd-backup" 


在 此 初次 出 现 的 参数 如 表 3.2.2 所 示 。 
表 3.2.2 ”keepalived.conf 的 配置 项 目 (新 出 现 的 ) 
项 


内 容 
将 VRRP 的 抢占 模式 设 为 无 效 。 关 于 抢占 模式 的 详 引 
0 (其 目标 是 避免 任何 不 必要 的 故障 切换 


当 VRRP 为 Master 状态 时 ， 指 定 想 要 执行 的 命令 


目 名 


notify_backup | 当 VRRP 为 备份 状态 时 ， 指 定 想 要 # 


notify_fault ”| 当 网 络 接口 的 链接 断 开 时 ， 指 定 想 要 执行 的 命令 


notify_master 及 notify_backup 已 经 在 之 前 的 代码 清单 3.2.2、 代 码 清单 3.2.3 
中 进行 了 指定 ， 因 此 在 故障 转移 时 可 以 更 改 DRBD 的 状态 。 在 本 设 定 中 ， 
当 备 份 服务 各 切 换 汶 Master 服务 器 时 ，drbd-master 会 被 执行 并 触发 故障 转 


移 。 


但 万 一 keepalived 停止 运作 ， 将 会 导致 notify_master 及 notify_backup 的 脚 
本 无 法 运行 。 若 Master 的 keepalived 停止 运作 ，Master 的 DRBD 将 在 
Primary 的 状态 下 发 生 故 障 转移 ， 进 而 就 会 导致 备份 服务 丹 的 drbd-master 出 
误 。 因 此 ， 在 keepalived 停止 运作 时 ， 一 定 要 确保 执行 drbd-backup 的 
脚本 。 


利用 daemontools 来 控制 keepalived 


为 了 解决 该 问题 ， 使 用 代码 清单 3.2.5 作为 keepalived 的 启动 脚本 。 但 此 处 
并 非 直接 局 动 /etc/init.d/keepalived， 而 是 使 用 daemontools 的 run 脚本 。 有 具 
体 将 在 5.4 世 中 讲解 ，daemontools 中 通过 这 样 的 脚本 可 以 控制 守护 程序 的 
启动。 在 本 和 万 中， 我们 将 使 用 wait 等 竺 keepalived 结束 ，wait 完毕 后 就 
会 执行 drbd-backup 脚本 。 由 于 从 supervise 发 来 的 信号 会 经 由 trap 命令 
传送 到 keepalived 中 ， 因 此 同样 也 可 利用 daemontools 来 直接 控制 
keepalived 的 操作 。 通 过 使 用 此 工具 ， 即 便 keepalived 由 于 什么 原因 停止 运 
作 了 ， 也 一 定 可 以 执行 drbd-backup 脚本 。 


代码 清单 3.2.5 ”keepalived 的 启动 脚本 


#!/bin/sh 
[ -f /var/run/vrrp.pid ] && exit 

2>&1 

'kill -TERM $PID' TERM 

'kill -HUP $PID' HUP 

'kill -INT $PID' INT 
/usr/local/sbin/keepalived -n -S 1 --vrrp & 


PID=$! 
wait $PID 
/usr/local/sbin/drbd-backup 


3.2.6 NFS 服务 器 故障 转移 时 的 注意 事项 


由 于 DRBD 所 镜像 的 设备 是 NFS 共有 的 ， 因 此 不 能 在 Master 服务 器 上 局 
动 NFS 服务 器 。 实 施 NFS 服务 器 的 匈 余 时 有 可 外 同 于 Web 服务 器 
及 邮件 服务 器 元 余 时 所 遭遇 的 问题 ， 因 此 需要 多 加 留意 。 因 故障 转移 而 成 


为 新 Master 的 NFS 服务 右 并 没有 被 任何 客户 端 所 挂 载 ， 帮 此 时 没有 癌 NFS 
客户 端 声明 故障 转移 导致 了 服务 器 切换 ，NFS 客户 剖 束 会 认为 已 经 进行 了 
挂 载 并 访问 文件 ， 但 这 时 NFS 服务 右 则 会 认为 没有 挂 载 的 客户 端 发 起 了 文 
件 请 求 ， 从 而 拒绝 该 请 求 。 为 了 解决 该 问题 ， 可 使 用 以 下 方法 。 


同步 /var/lib/nfs/ 


NFS 服务 器 的 连接 信息 被 存储 在 /var/lib/nfs/ 下 ，DRBD 将 该 参数 进行 
镜像 操作 ， 以 便 在 故障 转移 时 能 实现 正常 切换 。 但 根据 分 发 策略 

(Distribution) ，NFS 服务 器 的 启动 脚本 中 有 时 是 使 用 exportfs 命 
令 来 清除 连接 信息 的 ， 因 此 需要 额外 创建 不 清除 连接 信息 的 脚本 ， 并 
在 发 生 故 障 转移 时 通过 该 脚本 启动 NFS 服务 器 


使 用 nfsd 文件 系统 


nfsd 文件 系统 Linux 的 固有 功能 ， 专 门 被 用 来 支持 NFS 服务 器 的 元 
余 。 在 执行 nount -t nfsd nfsd /proc/fs/nfsd 命令 的 状态 下 
启动 的 NFS 服务 器 并 没有 使 用 /var/lib/nfs/ 目录 ， 因 此 即便 是 完全 陌生 
的 NFS 客户 端 发 来 访问 请 求 ， 也 会 像 该 客户 端 已 经 挂 载 了 那样 来 进行 
处 理 。 在 Linux 2.6 版 内 核 中 使 用 该 文件 系统 来 进行 操作 相当 便利 


3.2.7 ”备份 的 必要 性 


即便 在 DRBD 中 将 磁盘 做 了 镜像 处 理 ， 也 依然 不 能 保证 100% 的 安全 ， 例 
如 将 文件 误 删 后 依旧 难以 找 回 。 镜 像 古 DRBD 的 优点 ， 但 万 一 文件 被 充 

删 ， 殊 立刻 会 被 反映 到 备份 服务 器 上 去 ， 从 这 一 层面 上 来 看 ， 镜 像 也 是 一 
个 致命 的 弱点 。 因 此 虽然 很 花 时 间 ， 但 还 是 做 好 最 坏 的 打算 ， 务 必 做 好 数 
据 的 备份 ， 不 过 也 不 用 每 天 都 进行 备份 。 


3.3 ”网 络 的 见 余 
3.3.1 LUL2 上 部 件 的 宛 余 


前 两 章 以 及 第 3 章 的 前 几 节 都 在 探讨 OSI 参考 模型 下 的 第 三 层 (L3=IP 层 ) 
与 第 七 层 (L7= 应 用 层 ) 的 元 余 问题 。 但 若 下 层 的 物理 网 络 (L1= 物理 层 ) 
或 以 太 网 (Ethemet) 级 别 的 通信 发 生 故 障 ， 即 便 上 层 正常 运作 ， 也 会 导致 
整个 系统 的 故障 。 


本 中 将 讲解 在 LI1 及 工 2 0 停止 的 元 余 策 
略 。 通 过 对 L1L2 做 出 元 余 处 理 ， 不 仅 能 避免 故障 ， 还 能 细 化 系统 维护 层 


“ RSTP 


面 的 管理 。 


:例如 在 笔者 管理 的 环境 中 ， 就 曾 对 所 有 的 交换 机 及 负载 均衡 器 兼 路 由 器 都 做 过 不 间断 的 处 理 。 


3.3.2 ”故障 点 

在 LL2 的 结构 元 素 中 ， 通 常 是 以 下 原因 导致 故障 的 : 

@ LAN 网 线 

@ NIC (网 卡 ) 

@ 网 络 交 换 机 的 端口 

@ 网 络 交换 机 

LAN 网 线 故 障 是 因为 断 线 或 线 统 接 触 不 恨 造成 的 ， 以 笔者 的 经 验 来 看 ， 通 
党 表现 为 网 络 连接 的 上 行 及 下 行 都 出 现 问题 。 与 网 卡 连 接 的 网 络 交 换 机 的 
特定 端口 也有 可 能 发 生 故 障 。 当 然 网 络 交 换 机 目 身 也 有 可 能 发 后 故障 。 例 
如 不 小 心 磁 掉 了 网 络 交 换 机 的 电源 ， 虽 然 这 种 故障 有 点 低级 .…………. 


接 下 来 将 仔细 探讨 各 故障 元 素 。@ ~ @ 是 服务 器 与 网 络 交换 机 之 间 的 连接 
方面 的 故障 ， 在 此 统称 为 “连接 故障 * 。 


而 交换 机 与 交换 机 之 间 也 会 发 生 @ 和 @ 那样 的 故障 ， 在 此 统称 为 “交换 机 
间 的 连接 故障 ”。 


像 @ 那样 的 网 络 交 换 机 故障 则 被 称 为 "交换 机 故障 ”。 
下 文 将 会 束 如 何 避 人 免 这 些 故障 进行 一 系列 探讨 。 
3.3.3” 链 路 见 余 与 驱动 绑 定 


为 避免 连接 故障 ， 需 要 将 服务 器 与 交换 机 之 间 的 连接 进行 元 余 处 理 。 也 就 
是 说 ， 需 要 在 服务 器 上 准备 多 块 NIC (网 卡 ) ， 同 时 将 LAN 网 线 连 接 到 这 
些 网 卡 上 。 当 然 也 不 仅仅 只 是 准备 多 块 网 卡 而 已 ， 为 了 能 使 用 这 些 网 卡 进 
行 通 信 ， 还 需 对 每 个 网 卡 分 配 IP 地 址 。 这 样 一 来 ， 每 当 连 接 到 网 络 的 主机 
之 间 进 行 通信 时 ， 都 需要 诊断 哪个 网 卡 可 用 ， 据 此 来 切换 目的 地 址 ， 但 这 
几乎 是 无 法 做 到 的 。 为 了 解决 该 问题 ，Linux 中 提供 了 驱动 绑 定 (Driver 
Binding) 这 样 的 工具 。 


驱动 绑 定 


驱动 绑 定 4 是 Linux 自 带 的 网 络 驱动 的 组 件 之 一 。 驱 动 绑 定 将 多 块 物 理 网 卡 
(物理 NIC) 进行 托管 ， 以 作为 单 块 逻辑 网 卡 (逻辑 NIC) 使 用 。 


4 关于 驱动 绑 定 ，Linux 内 核 的 附属 文档 是 最 主要 的 参考 信息 ， 请 在 kernel.org 下 载 所 发 布 的 软件 
包 ， 并 访问 其 中 的 Linux-2.6.X.X/Documentation/networking/bonding.text 。 


逻辑 网 卡 不 但 可 以 作为 赋予 地 址 的 对 象 网 卡 来 使 用 ， 还 可 以 作为 Linux 内 
核 的 IP 别名 (IP Alias) 功能 、VLAN (Virtual LAN) 功能 、 桥 接 功能 等 的 
对 象 网 卡 来 使 用 。 在 使 用 逻辑 网 卡 进行 通信 时 ， 根 据 驱 动 绑 定 中 的 设置 会 
将 请 求 分 配 到 物理 网 卡 上 ， 并 检查 分 配 的 目标 物理 网 卡 是 否 存 在 故障 ， 以 
避免 将 请 求 分 配 到 有 故障 的 物理 网 卡 上 。 


张 动 绑 定 从 多 个 物理 网 卡 中 选择 一 个 用 于 通信 时 ， 可 使 用 多 种 模式 ， 有 具体 
可 参考 表 3.3.1 的 选择 项 。 但 无 论 选择 哪个 模式 ， 若 物理 网 卡 发 生 故 障 ， 
都 没 法 让 该 网 卡 恢复 使 用 。 


”在 这 些 模式 中 ，active-backup 是 使 用 方法 最 简单 的 模式 ， 笔 者 管理 的 环境 中 使 用 的 就 是 active- 
backup 模式 。 


表 3.3.1 驱动 绑 定 的 行为 模式 


balance-rr 四 需要 送 达 的 数据 帧 切换 物理 网 卡 ( 轮 询 ) 


里 网 卡 可 用 ， 该 网 卡 。 若 该 网 卡 发 生 故 障 ， 则 切换 到 下 一 块 


求 与 接收 请 求 的 MAC 地 址 进行 XOR ( 异 或 ) 运算 


balance-xor l 


将 需要 发 送 的 数据 帧 复制 后 ， 发 送 到 所 有 物理 网 卡 上 ， 这 些 数 据 帧 均 相同 


使 用 IEEE 802.3ad 协议 ， 在 交换 机 之 间 动 态 创建 链 路 聚合 
Aggregation ) 


balance-tlb | 选择 负荷 量 最 低 的 物理 网 卡 进行 发 送 。 接 收 请 求 使 用 特定 的 物理 网 卡 


balance-alb | 选择 负荷 量 最 低 的 物理 网 卡 进行 发 送 及 接收 


※ 引 自 linux 2.6.24 版 内 核 的 bonding.txt 文件 。 


驱动 绑 定 还 有 个 很 重要 的 参数 ， 可 以 监控 物理 网 卡 的 故障 。 有 MII (Media 
Independent Interface) 监控 和 ARP (Address Resolution Protocol) 监控 两 
种 监控 种 类 可 供 选 择 。 


MI 监控 是 监控 可 能 出 现 的 物理 网 卡 链 路 故障 (Link Down) ， 虽 然 可 以 很 
高 效 地 在 短 时 间 内 检查 出 故障 ， 但 却 无 法 监控 出 网 卡 链 路 正常 (Link Up) 
时 出 现 的 通信 故障 6 。 


“在 笔者 管理 的 环境 中 确实 发 生 过 此 类 故障 ， 自 那 以 后 ， 笔 者 便 开 始 使 用 ARP 监控 。 


ARP 监控 是 对 指定 的 设备 发 出 ARP 请 求 ， 通 过 是 否 接 到 回应 (Reply) 来 
进行 判断 。 因 为 是 通过 实际 进行 通信 来 进行 监控 ， 所 以 漏 检 故 障 的 风险 很 
低 ， 但 即便 目标 主机 有 回应 ， 若 不 能 正确 地 对 该 主机 发 出 ARP 请 求 ， 也 会 
导致 诊断 错误 。 为 了 降低 漏 检 的 风险 ， 可 通过 驱动 绑 定 对 ARP 请 求 目 标 绑 
定 多 个 下 地 址 〈 最 多 16 个 ) 。 


3.3.4 ”交换 机 的 元 余 


即使 通过 使 用 纪 动 绑 定 的 方式 绑 定 多 块 物理 网 卡 实现 了 元 余 ， 也 依旧 无 法 
解决 请 求 目标 为 同一 交换 机 的 交换 机 故障 。 为 了 避免 发 生 交 换 机 故障 ， 需 
要 准备 多 人 台 交 换 机 ， 并 将 驱动 绑 定 的 物理 网 卡 连接 到 不 同 的 交换 机 ， 这 样 
交换 机 及 链 路 就 实现 了 如 图 3.3.1 的 @ 所 示 的 元 余 拓 扑 结构 ”。 


”在 建立 此 拓扑 结构 时 ， 可 供 选 择 的 驱动 绑 定 模式 有 :，active-backup、balance-ttb、balance-alb。 在 
此 应 用 balance-rr 及 balance-xor 会 导致 交换 机 混乱 ， 进 而 导致 通信 被 阻 断 。 


图 3.3.1 交换 机 及 链 路 的 元 余 拓扑 结构 


成 功 将 各 个 服务 絮 设 备 的 网 线 连接 到 其 他 的 交换 机 后 ， 便 完成 了 驱动 绑 定 
nb LS1-2， 该 LS1-2 将 在 链 路 故障 
时 发 挥 作用 。 


链 路 故障 时 的 行为 


如 果 交 换 机 之 间 的 连接 LS1-2 发 生 链 路 故障 ，svrl 与 svr2 之 间 的 通信 会 怎 
么 样 呢 ? svrl 的 L1-1 发 生 故 障 时 的 情况 如 图 3.3.1 的 \textcircled{b} 所 示 。 
若 需 要 从 svrl 发 送 分 组 (Pocket) 到 svr2， 由 于 L1-1 无 法 使 用 ， 因 此 使 用 
L1-2 来 进行 传送 。 另 外 ， 因 为 能 够 确保 该 分 组 经 由 sw2 传送 到 svr2， 因 此 
没有 发 生 问 题 。 


相反 ， 从 svr2 传送 到 svrl 的 分 组 则 既 有 可 能 经 由 L2-1 送出 ， 也 有 可 能 经 
由 L2-2 送出 。 知 从 工 2-2 送出 ， 束 会 和 刚刚 一 样 经 由 sw2， 则 该 链 路 可 用 ; 
若 从 L2-1 送出 ， 则 由 于 无 法 使 用 L1-1， 将 无 法 到 达 svr1。 因此， 为 了 将 该 
分 组 成 功 传送 到 sw2， 必 须要 在 路 由 器 之 间 连 接 LS1-2。 


交换 机 故障 时 的 行为 
通过 事先 准备 的 LS1-2， 即 便 链 路 发 生 故 障 ， 也 可 确保 svrl 及 svr2 的 运作 


以 使 通信 维持 正常 。 但 若 交 换 机 发 生 故 障 该 如 何 是 好 呢 ? 以 下 将 探讨 swl 
发 生 故障 时 的 情况 。 


震 swl 发 生 故 障 ， 则 与 链 路 故障 时 一 样 ， 可 通过 豫 动 绑 定 确认 sw1 的 链 路 
征 否 可 用 来 进行 判断 。 与 链 路 故障 不 同 的 是 ， 需 要 同时 在 所 有 服务 右上 进 
行 判 是 。 当 所 有 服务 器 都 不 使 用 sw1 的 链 路 而 只 使 用 sw2 的 链 路 时 ， 就 能 
让 通信 维持 正常 运作 。 


交换 机 间 遭 遇 连 接 故障 时 的 情况 


最 后 来 探讨 交换 机 与 交换 机 之 间 的 连接 故障 。 在 某 些 张 动 绑 定 模式 下 ， 即 
便 链 路 出 现 故障 ， 区 换 机 间 的 连接 也 可 正常 使 用 ? 。 当 然 当 故障 发 生 时 也 可 
能 造成 通信 阻 断 。 应 对 交换 机 之 间 的 连接 LS1-2 的 故障 时 ， 和 服务 右 与 交 
换 机 之 间 的 连接 的 情况 相同 ， 可 以 通过 连接 多 根 网 线 以 实现 见 余 。 


8 例如 在 balance-tlb 或 balance-alb 模式 的 情况 下 就 会 经 常 使 用 ， 在 active-backup 模式 下 ， 如 果 所 有 
的 服务 器 上 被 连接 的 active 物理 网 卡 与 所 用 的 交换 机 相同 ， 则 也 有 必要 建立 交换 机 与 交换 机 之 间 的 


连接 。 


在 服务 器 与 交换 机 之 间 的 连接 疝 可 使 用 驱动 绑 定 的 方式 ， 但 交换 机 与 交换 
机 之 间 的 连接 方面 ， 虽 然 早 先 可 以 使 用 交换 机 广 商 目 有 的 方式 ， 但 目前 还 
是 使 用 标准 的 IEEE 802.3ad? 方式 比较 好 ， 这 党 被 称 为 "端口 聚合 ”(Port 
Trunking) 及 “ 链 路 聚合 ”(Link Aggregation) 。 


9 URL http://www.ieee802.0rg/3/ad/ 


3.3.5 ”增设 交换 机 


在 前 义 图 3.3.1 的 折 扑 结构 中 ， 全 体 服 务 器 可 使 用 的 交换 机 端口 数 实际 仅 为 
台 交 换 机 的 端口 量 ， 随 着 服务 器 台数 的 增加 ， 交 换 机 的 端口 数 会 越 来 越 
不 够 用 ， 因此 需要 进行 扩展 。 关 于 扩展 的 方法 ， 既 可 以 选择 切换 到 目前 已 
有 的 端口 数 语 裕 的 交换 机 ， 也 可 以 选择 增设 交换 机 。 切 换 的 情况 和 刚才 介 
绍 的 没什么 不 同 ， 但 铬 要 增设 交换 机 ， 鉴 于 整个 拓扑 的 变更 ， 为 了 保持 元 
余 性 就 需要 满足 更 多 的 条 件 。 对 图 3.3.1 的 拓扑 增设 交换 机 并 进行 级 联 连接 
Os Connection) 后 ， 所 形成 的 拓扑 结构 如 图 3.3.2 所 示 。LS1-3 与 
LS2-4 的 级 联 连接 与 LS1-2 一 样 ， 使 用 了 链 路 聚合 的 方式 实现 了 元 余 。 


图 3.3.2 增设 交换 机 并 进行 级 联 连接 的 拓扑 结构 


应 用 图 3.3.2 的 拓扑 ， 在 驱动 绑 定 的 物理 网 卡 监 控 方 式 下 ， 需 要 使 用 ARP 
监控 。 在 MII 监控 下 ， 若 sw1 或 sw2 发 生 故 障 ， 则 会 导致 svr3 及 svr4 的 通 
信和 阻 断 。 以 下 具体 说 明 该 问题 的 状况 。 


若 swl 发 生 故 障 ， 则 sw4 与 sw2 进行 连接 ，sw3 被 孤立 。 这 时 大 svr3 与 
svr1 进行 通信 ， 因 为 没有 sw3 到 svrl 的 线路 ， 所 以 通信 无 法 实现 。 若 需 避 
免 该 问题 ， 在 sw1 故障 时 ， 不 仅仅 是 swl 上 连接 的 svrl 及 svr2 到 sw3 的 链 
路 ，svr3 及 svr4 到 sw3 的 链 路 也 需要 被 判断 为 发 生 了 故障 。 为 此 ， 在 svr3 
及 svr4 上 部 署 物理 网 卡 故障 监控 方式 一 ARP 监控， 并 将 ARP 的 监控 对 象 
指定 为 svrl 及 svr2 即 可 。 这 种 情况 下 ， 若 swl 发 生 故 障 ， 通 过 L3-3 及 工 4- 
3 发 出 的 ARP 请 求 没 有 得 到 应 答 ， 即 可 判断 出 该 链 路 发 生 了 故障 。 


实现 多 重 元 余 


在 图 3.3.2 中 ， 由 于 sw3 与 sw4 之 间 的 交换 机 没有 连接 ， 因 此 会 发 生 swl 及 
sw2 故障 时 sw3 及 sw4 被 孤立 的 情况 。 为 了 避免 出 现 该 问题 ， 需 要 像 图 
3.3.3 那样 在 sw3 与 sw4 之 间 设 立 一 个 像 LS1-2 那样 的 交换 机 间 的 连接 LS3- 
4， 以 设置 一 个 将 sw3 与 sw4 连接 起 来 的 迁 回 线路 ， 这 样 即便 不 使 用 驱动 绑 
定 的 ARP 监控， 也 可 避免 通信 阳 断 的 问题 。 但 如 果 单 纯 这 么 设置 迁 回 线 
路 ， 则 会 导致 其 他 问题 的 出 现 。 


请 看 图 3.3.3，sw1 到 sw4 之 间 相 互 连 接 实 现 了 环 路 拓扑 。 但 若 在 以 太 网 中 
组 建 该 拓扑 结构 ， 将 会 导致 广播 风暴 (Broadcast Storm) 的 出 现 。 


10 广播 就 是 指 一 个 数据 贰 或 分 组 被 传输 到 本 地 网 段 ( 由 广播 域 定义 ) 上 的 每 个 节点 "由 于 网 络 拓扑 

的 设计 和 连接 问题 ， 或 者 其 他 某 种 原因 ， 导 致 广播 在 网 段 内 大 量 复制 、 传 播 数据 帧 ， 让 这 些 广播 数 

et 并 占用 大 量 网 络 带宽 ， 致 使 网 络 性 能 下 降 ， 甚 至 彻底 次 病 。 这 就 是 广播 风 
o 译 注 


图 3.3.3 ”连接 sw3 与 sw4 的 迁 回 线路 的 设 定 示例 


如 果 能 够 确保 正常 情况 下 sw3 及 sw4 的 连接 不 走 LS3-4， 只 在 swl 或 LS1- 
3 故障 时 使 用 LS3-4， 束 能 够 在 确保 迁 回 线路 正常 的 前 提 不 发 生 广 播 风 暴 。 
为 了 实现 该 拓扑 结构 ， 可 使 用 STP (Spanning Tree Protocol) 。 下 下 将 讲解 
STP 的 加 强 版 RSTP 的 使 用 方法 。 


3.3.6 RSTP 


RSTP (快速 生成 树 协议 ，Rapid Spanning Tree Protocol) 是 数据 链 路 层 的 

协议 ， 被 用 于 协调 各 个 交换 机 ， 0 (Loop) 拓扑 结构 ， 目 动 屏蔽 

RSTP 根据 优先 级 及 链 路 速度 等 设 定 来 决定 屏蔽 哪些 交换 机 
» 于 0° 


1 快速 生成 树 协议 是 由 IEEE802.1d 定义 的 STP 发 展 而 来 的 。STP 在 环 路 拓扑 结构 发 生变 化 时 ， 以 
50 秒 左右 的 时 间 收 敛 网络 ， 而 改良 过 的 RSTP 则 可 在 数秒 间 收 敛 网 络 。RSTP 最 先 以 IEEE 802.1w 
为 标准 ， 现 在 的 IEEE 802.1D-2004 中 已 经 废止 了 STP， 开 始 使 用 RSTP。 


在 RSTP 中 ， 各 交换 机 通过 相互 交换 BPDU (Bridge Protocol Data Unit) 消 
奶 帧 ， 交 换 优 移 级 等 信息 并 监测 故障 。 者 该 BPDU 消息 帧 没有 成 功 在 交换 


机 间 进 行 传播 ， 则 可 判断 出 该 交换 机 发 生 了 故障 ， 即 可 切换 到 备用 路 线 。 
下 面 将 简单 介绍 RSTP 的 行为 方式 。 

网 桥 的 优先 顺序 及 根 网 桥 

在 RSTP 所 运作 的 各 网 桥 (Bridge) 中 ， 通 过 相互 交换 BPDU 消息 帧 来 决 
定 网 桥 的 优先 顺序 。 在 链 路 上 所 有 的 网 桥 中 ,“ 根 网 桥 ” (Root Bridge) 拥有 
最 高 的 优先 级 。 而 其 他 网 桥 的 优先 顺序 则 是 通过 将 从 其 他 交换 机 获取 的 
BPDU 消息 帧 中 所 记载 的 数值 与 自身 所 产生 的 数值 相 比较 来 决定 的 。 


12 网 桥 与 交换 集线器 (Switching Hub) 指 的 是 同一 个 东西 。 在 RSTP 的 标准 用 语 中 被 称 为 网 桥 ”， 
因此 本 书 中 也 这 么 称呼 。 


@ 根 网 桥 的 网 桥 ID 

@ 通 向 根 网 桥 的 路 径 开 销 (Path Cost) 
日 一 般 网 桥 的 网 桥 ID 

@ 发 送 BPDU 消息 帧 的 网 桥 的 端口 ID 
@ 接收 BPDU 消息 帧 的 网 桥 的 端口 ID 


网 桥 ID 是 8 个 字 节 的 数值 ， 其 中 前 两 个 字 节 是 各 网 桥 上 用 户 所 设 定 的 优先 
A 
交 高 。 

根 网 桥 的 路 径 开 销 是 指 到 达 根 网 桥 所 经 由 的 链 路 时 间 ， 根 据 各 个 链 路 所 设 
定 的 链 路 开销 基数 来 评定 。 各 链 路 的 链 路 开销 由 连接 接续 时 间 决 定 。 路 径 
开销 越 小 说 明 优先 级 越 高 。 

也 就 是 说 ， 根 网 桥 就 是 优先 级 数值 最 小 的 那个 。 

RSTP 中 端口 的 作用 


RSTP 上 所 有 的 网 桥 在 初始 化 过 程 中 ， 针 对 网 桥 上 的 各 个 端口 ，RSTP 都 为 
其 决定 了 特定 的 作用 。 该 作用 分 为 5 类 。 


。 根 端口 (Root Port) 


在 网 桥 的 各 个 端口 中 ， 被 接 入 优先 级 最 高 的 网 桥 的 端口 。 当 SRTP 在 初 
人 化 时 进行 收 全 ， 由 于 所 有 网 桥 所 识别 的 根 网 桥 相 同 ， 所 以 根 端口 就 
是 到 达 根 网 桥 的 最 短路 径 

指定 端口 (Designated Port) 


优先 级 较 低 的 网 桥 所 接 入 的 端口 。 将 链 路 对 象 的 网 桥 端 口 替 换 为 为 根 
端口 


替换 端口 (Alternate Port) 


除根 端口 外 ， 在 链 路 中 优先 级 较 高 的 端口 。 该 端口 可 屏蔽 除 BRDU 外 
的 请 息 帧 ， 在 由 于 一 些 原因 不 能 使 用 根 端 口 的 情况 下 ， 通 常 使 用 替换 
端口 
备份 端口 (Backup Port) 
如 果 一 个 端口 〈 即 某 个 指定 的 端口 ) 收 到 来 自 同 一 个 网 桥 的 BPDU 消 
妃 帧 ， 且 这 个 BPDU 的 优先 级 更 高 ， 那 么 这 个 端口 将 成 为 备份 端口 。 
当 两 个 端口 被 一 个 点 到 点 链 路 的 环 路 连 在 一 起 时 ， 或 当 一 个 交换 机 存 
在 两 个 或 两 个 以 上 到 共享 局 域 网 段 的 连接 时 ， 一 个 备份 端口 才能 存 
在 。 由 于 RSTP 所 设 定 的 网 桥 在 接收 消息 时 不 能 传送 BPDU 消息 帧 ， 
所 以 在 自身 传送 BPDU 时 ， 需 要 首先 对 没有 配置 RSTP 的 交换 类 链 路 
的 环 路 构成 进行 判断 。 该 端口 可 以 屏蔽 除 BPDU 以 外 的 请 妃 帧 

。 禁用 端口 (Disabled Port) 

无 法 接收 BPDU 消 居 幅 的 端口 ， 通 常 在 链 路 末尾 将 端口 设 为 该 端口 
RSTP 的 行为 
在 此 将 概括 性 地 讲解 RSTP 的 行为 ， 具 体 请 参考 脚注 中 的 资料 蕊 。 


3 关于 RSTP 的 详情 ， 可 以 访问 下 面 的 链接 查看 IEEE 802.1D-2004 标准 。 
URL http://standards.ieee.org/getieee802/802.1.html 


在 RSTP (图 3.3.4) 基于 环 路 结构 的 网 络 拓 扑 中 ， 通 过 逻辑 性 地 屏蔽 消 忌 
帧 来 解除 环 路 。RSTP 中 生成 了 “ 树 结构 "， 其 中 的 “ 树 根 ” 即 为 根 网 桥 。 在 树 
结构 中 ， 通 向 优先 级 最 高 的 节点 的 链 路 (= 根 端口 ， 只 有 一 个 。 通 常 只 会 接 
入 到 根 端口 ， 而 不 会 使 用 其 他 优先 级 较 高 的 网 桥 端口 ， 不 过 会 事 匈 对 该 端 
口 做 好 标记 以 供 无 法 使 用 根 端口 时 使 用 (替换 端口 ) 。 通 过 始终 保持 一 个 
通 癌 优先 级 最 高 的 网 桥 链 路 ， 即 可 解除 环 路 拓扑 。 


2 [eos | 
RSTP RP BP Dr 
=> [roy 
DP RP APAN DP 
ov | 


平常 不 使 用 ， 仅 在 左边 的 
链 路 故障 时 使 用 


图 3.3.4 RSTP 的 行为 

如 果 网 桥 中 没有 替换 端口 ， 那 么 在 无 法 使 用 根 端口 的 情况 下 ， 将 会 与 低 优 
先 级 的 网 桥 交 换 BPDU 消息 帧 。 这 是 因为 ， 无 法 使 用 根 端口 意味 着 根 网 桥 
和 
3.3.7 ”总结 

使 用 Linux 的 驱动 绑 定 ， 不 仅 实 现 了 服务 器 与 交换 机 之 间 的 链 路 元 余 ， 还 
实现 了 交换 机 的 元 余 。 随 着 所 设置 的 服务 器 的 增多 而 不 得 不 增设 交换 机 
时 ， 若 能 恰当 地 规划 拓扑 结构 ， 通 过 使 用 驱动 绑 定 也 可 确保 见 余 性 。 但 实 
施 该 方法 的 前 提 是 连接 到 网 络 的 所 有 设备 都 正确 应 用 驱动 绑 定 策略 。 
部 署 RSTP 后 ， 即 便 不 使 用 驱动 绑 定 也 可 以 实现 交换 机 的 了 见 余 ， 这 打破 了 
以 往 需要 在 所 有 设备 上 使 用 驱动 绑 定 才能 实现 交换 机 元 余 的 限制 ， 争 取 了 


未 来 系统 扩展 的 自由 度 。 若 链 路 上 的 服务 器 增加 导致 需要 增设 交换 机 的 
话 ， 可 以 尝试 以 此 为 契机 将 RSTP 技术 应 用 到 这 些 设备 上 。 


3.4 引入 VLAN 一 ”使 网 络 更 加 灵活 


3.4.1 基于 服务 器 集群 的 高 灵活 性 网 络 

首先 请 考虑 何 为 基于 服务 器 集群 的 高 灵活 性 网 络 ， 具 体 来 讲 束 是 : 
。 容易 增加 新 的 服务 器 
。 当 服 务 器 发 生 故 障 时 ， 能 立刻 转移 到 备用 机 
。 某 一 特定 功能 的 服务 器 可 作为 其 他 功能 的 服务 器 使 用 


a 


只 要 满足 了 以 上 条 件 ， nn 
网 络 后 扩 结构 中 若 在 在 并 ， 无 法 方便 地 进行 上 述 作 业 ， 则 可 认为 该 网 络 
灵 } 父 


硬件 层面 的 人 工 操 作 虽然 容易 实现 ， 但 满足 以 上 条 件 的 软件 实现 惑 稍微 有 
些 难度 了 。 例 如 只 要 服务 器 在 身边 ， 那 么 更 换 网 线 、 移 动 服 务 器 都 不 成 问 
题 。 但 提供 Web 服务 的 服务 右 托 管 在 数据 中 心 的 情况 下 ， 束 不 能 每 次 都 让 
人 专程 跑 到 托管 现场 的 数据 中 心 进行 配置 。 男 外 在 物理 层面 更 换 网 线 时 ， 
还 要 小 心 确 认 机 想 内 的 线 线 情 况 ， 否 则 万 一 出 现 问题 是 很 难 办 的 。 


变更 网 络 的 拓扑 等 需要 进行 物理 层面 的 作业 时 ， 可 以 使 用 智能 交换 机 所 有 具 
备 的 VLAN (Virtual LAN) 功能 ， 在 不 进行 物理 作业 的 情况 下 完成 目标 。 
在 本 市 中 ， 将 要 探讨 基于 服务 右 集 群 组 建 高 灵活 性 网 络 的 方法 ， 即 使 用 
VLAN 的 网 络 拓 扑 结构 及 VLAN 服务 絮 集 群 的 使 用 方式 。 男 外 还 将 专门 针 
对 负载 均衡 器 这 种 特殊 的 硬件 结构 讨论 VLAN 的 使 用 方式 。 


3.4.2 引入 VLAN 的 优点 
在 服务 咒 案 群 中 ， 使 用 VLAN 有 众多 优点 。 在 此 将 探讨 以 下 两 个 主要 的 优 


。 使 用 一 台 交 换 机 即 可 实现 分 段 (Segment) 管理 
-> 能 够 灵活 有 效 地 使 用 交换 机 


使 用 VLAN， 只 用 一 台 交 换 机 就 能 实现 分 段 管理 。 相 比 不 使 用 VLAN 
的 情况 下 ， 可 更 加 灵活 有 效 地 使 用 交换 机 


只 需 合 理 设 定 ， 就 能 控制 数据 帧 所 分 发 的 端口 

-= 增加 / 更 换 服务 器 或 服务 器 发 生 故 障 时 ， 切 换 到 备用 机 将 更 加 容易 
通过 使 用 VLAN， 不 用 在 物理 层面 更 换 或 修复 LAN 网 线 ， 只 需 通 过 合 
理 的 设 定 ， 束 能 控制 数据 帧 所 分 发 的 LAN 网线 连接 的 端口 。 因此 无 论 
征 哪个 段 连 接 的 服务 器 发 生 故障 ， 只 需 将 LAN 线 缆 接 入 备用 机 ， 束 能 
很 容易 地 修复 该 故障 

下 面 我 们 束 来 详细 看 一 下 实际 的 运行 情况 。 

交换 机 的 有 效 使 用 


在 如 图 3.4.1 那样 的 普通 的 Web 系统 中 ， 存 在 WAN 段 及 内 网 段 两 部 分 


内 网 段 WAN 段 


图 3.4.1 普通 的 web 系统 


下 面 来 看 WAN 段 ， 即 便 除 交换 机 以 外 的 端口 在 拓扑 中 占用 了 相当 多 的 资 
产 ， 交换 机 也 最 多 只 能 使 用 四 个 端口 (上层 拓 提琴 个 路 由 器 两 个 。 就 
算 使 用 八 口交 换 机 ， 也 有 四 个 端口 是 被 当 费 棒 的 。 


服务 在 逐渐 扩展 时 肯定 需要 增加 Web 服务 器 的 数量 ， 若 内 网 段 的 交换 机 没 
有 存在 空间 端口 ， 即 便 增 加 一 两 台 Web 服务 器 ， 也 需要 相应 地 增设 交换 
机 。 但 此 时 WAN 段 的 端口 数 又 稍 显 充 裕 ， 硅 能 在 内 网 段 的 交换 机 上 使 用 这 
些 空 用 端口 ， 则 吏 没 必要 增设 新 的 交换 机 了 。 


当然 ， 奉 直接 将 外 部 网 络 与 内 部 网 络 接 入 到 同一 台 交 换 机 上 ， 束 会 造成 外 
网 也 能 直接 访问 内 网 的 风险 。 因 此 不 能 只 追求 弹性 化 ， 还 要 考虑 到 相应 的 
安全 问题 。 


通过 在 以 上 拓扑 结构 中 使 用 VLAN， 即 可 在 确保 安全 的 同时 ， 有 灵活 使 用 各 
个 交换 机 的 端口 。 

故障 服务 器 的 恢复 机 制 ... 灵 活 使 用 一 台 备 用 机 

在 此 假设 数据 中 心中 某 人 台 服 务 器 发 生 了 故障 ， 让 我 们 来 考虑 如 何 恢复 这 台 


服务 器 。 简 单 来 说 ， 如 果 数 据 中 心 已 经 准备 好 了 一 台 恢 复 用 的 备用 机 ， 那 
么 就 需 进 行 以 下 步 又 : 


。 将 故障 服务 器 的 设置 迁移 到 备用 机 
。 接 入 备用 机 以 取代 故障 服务 器 


为 了 缩短 恢复 故障 所 花费 的 时 间 ， 事 先 将 相关 服务 器 设置 迁移 到 备用 机 上 
或 许 是 个 不 错 的 方法 。 但 由 此 就 需要 事先 将 Web 服务 器 、 数 据 库 服务 器 等 
每 个 生产 环境 中 的 系统 设置 都 迁移 到 备用 机 上 ， 当 工作 中 的 服务 器 多 达 上 
百 台 时 ， 将 需要 非常 庞大 的 系统 规模 ， 因 此 现实 中 该 方案 无 法 实施 。 


没有 发 生 故 障 时 ， 尚 未 使 用 的 备用 机 产生 的 费用 开销 也 很 大 ， 因 此 需要 尽 
可 能 地 减少 备用 机 的 数量 。 在 包含 网 天 或 Linux 内 核 的 负载 均衡 器 中 ， 可 
i 


使 用 VLAN， 仅 用 一 台 备用 机 就 能 实现 恢复 


接 下 来 将 以 上 述 仅 用 一 台 备 用 机 来 保护 整个 系统 的 拓扑 结构 为 例 ， 探 讨 故 
障 时 的 恢复 方法 。 首 先 考虑 上 述 @ 中 将 环境 设置 迁移 到 备用 机 的 方法 。 


14 除 这 些 方法 外 ， 还 有 其 他 可 供 选 择 的 方案 。 但 由 于 那些 方案 并 不 对 应 网 络 层 的 问题 ， 因 此 在 本 节 
中 不 做 探讨 。 


。 需要 将 存放 数据 的 多 个 磁盘 安装 到 备用 机 上 ， 并 在 运行 时 进行 切换 


。 将 目标 服务 器 的 系统 结构 同步 ， 并 在 启动 后 启动 必要 的 服务 ， 通 过 赋 
予 指定 的 IP 地址 进行 切换 


。 网络 启动 系统 拓扑 中 的 这 些 服务 器 ， 启 动 时 需要 对 服务 器 的 参数 进行 
合理 设置 15 


口 


3 有关 网 络 启动 的 详情 请 参考 5.5 节 。 


以 下 将 探讨 上 述 @ 中 接 入 备用 机 的 问题 ， 具 体 如 何 实现 呢 ? 可 以 在 备用 机 
上 安装 多 块 网 卡 ， 以 便 可 以 连接 到 任意 网 络 上 。 但 这 样 做 就 需要 交换 机 的 
所 有 段 都 接 入 到 代 大 机上， 也 就 是 说 ， 从 物理 层面 进行 人 工 配置 以 及 网 线 
的 妥善 处 理 等 是 很 难 实现 的 。 


为 了 应 对 该 问题 ， 可 以 不 将 备用 机 设 为 特别 的 拓扑 结构 ， 无 论 备用 机 连接 
哪个 交换 机 的 哪个 端口 ， 只 要 能 让 备用 机 接 入 束 可 以 了 。 寿 能 实现 这 种 理 
想 环境 ， 根 据 情况 将 正在 运行 的 服务 万 暴 急 分 配 于 其 他 用 途 也 是 可 以 的 。 


有 关 网 线 的 连接 操作 ， 可 以 灵活 使 用 交换 机 及 系统 中 的 VLAN 功能 。 通 过 
运用 VLAN， 就 可 以 绥 解 必须 人 工 进 行 物 理 层面 的 操作 的 限制 ， 在 非 故 障 
0 变 得 更 加 容易 ， 使 系统 逐渐 晋升 为 大 规模 高 并 发 的 拓扑 结 
义 成 为 了 可 能 。 


通过 实施 上 文中 描述 的 操作 ， 就 满足 了 本 市 开头 所 介绍 的 高 灵活 性 的 网 络 
需求 。 下 文 将 结合 该 用 途 对 VLAN 进行 详细 讲解 。 


3.4.3 ”VLAN 的 基础 知识 


VLAN 并 非 是 物理 层面 的 结构 ， 而 是 通过 网 络 设备 及 服务 万 的 设 定 来 < 逻辑 
性 ?地 分 割 拓扑 结构 的 技术 。 具 体 来 说 ， 广 播 域 (Roadcast Domain) 的 分 割 
从 理论 上 讲 是 完全 可 能 的 。 通 过 使 用 VLAN， 即 使 同一 台 交 换 机 连接 多 个 
段 的 终端 ， 根 据 设 定 的 不 同 ， 也 可 以 将 广播 域 进行 逻辑 性 分 割 ， 从 而 只 将 
数据 帧 转发 (Forward) 到 适当 的 端口 。 


上 文中 已 经 针对 使 用 VLAN 逻辑 性 地 分 割 网 络 进行 了 说 明 ， 但 仍 需 考虑 需 
要 接 入 到 不 同 网 络 的 两 侣 交换 机 是 如 何 通 过 一 台 交 换 机 进行 管理 的 。 例 如 
像 图 3.4.2 的 @ 那样 ， 在 不 同 的 段 一 一 集群 1 及 集群 2 所 分 发 的 系统 中 ， 
通 稼 需要 在 每 个 集群 中 都 准备 交换 机 。 但 若 恰 当地 使 用 VLAN 进行 设 定 ， 
即 可 实现 如 图 3.4.2 的 @ 那样 仅 用 一 台 交 换 机 ， 束 能 够 分 割 出 多 个 集群 。 


全 两 台 交 换 机 的 两 个 集群 全 一 台 交 换 机 的 两 个 集群 { VLAN ) 


图 3.4.2 网 络 物理 层面 的 分 割 及 逻辑 层面 的 分 割 (VLAN) 


在 不 使 用 VLAN 的 情况 下 ， 若 一 个 交换 机 接 入 了 不 同 的 段 ， 该 交换 机 也 可 

针对 这 些 不 同 的 段 分 别 进行 通信 。 但 在 尚未 设 定 VLAN 的 交换 机 中 ， 多 播 
(Multicast) 、 广 播 帧 (Broadcast Frames) 或 地 址 不 详 的 未 知 单 播 帧 
(Unknown Unicast Frame) 就 会 被 转发 到 毫 无 关系 的 段 上 。 


在 此 本 来 束 没 有 关系 的 段 的 广播 帧 等 也 会 被 转发 到 各 个 端口 ， 从 而 造成 毫 
无 意义 的 带宽 浪费 。 根 据 情况 ， 在 本 来 束 无 法 进行 通信 的 段 上 发 送 通信 信 
息 ， 会 带 来 盗 听 等 危险 ， 因 此 还 需要 同时 留意 安全 问题 才 行 。 


3.4.4 ”VLAN 的 种 类 
VLAN 的 实现 大 体 可 分 为 两 种 方法 。 


其 中 之 一 是 手动 将 集群 分 配 到 每 个 端口 上 ， 即 “静态 VLAN” (Static 
VLAN) 。 使 用 该 方法 时 ， 若 端口 所 连接 的 终端 集群 发 生 改变 ， 则 需要 手动 
变更 路 由 器 上 的 相关 设置 。 


还 有 一 种 是 根据 所 连接 的 设备 等 ， 动 态 分 配 集群 的 “动态 VLAN” (Dynamic 
VLAN) 。 使 用 该 方法 时 ， 即 便 所 连接 的 集群 终端 需要 改变 ， 也 无 需 在 路 由 
器 上 手动 进行 变更 ， 因 为 分 配 会 基于 规则 动态 地 改变 。 


实现 VLAN 技术 的 方法 多 种 多 样 ， 根 据 使 用 目的 的 不 同 使 用 方法 也 会 不 
同 。 其 实 近 些 年 来 在 公司 内 部 的 LAN 上 ， 通 常会 根据 用 户 或 MAC 地 址 等 
言 轧 制定 相关 的 规则 ， 以 分 配合 适 的 VLAN 集群 来 确保 安全 。 在 公司 内 部 
LAN 中 ， 由 于 使 用 者 (= 职员) 的 调动 会 造成 拓扑 频繁 地 发 生 改变 ， 而 通 
过 VLAN 的 动态 分 配 ， 可 以 让 使 用 者 获得 便利 的 同时 也 满足 系统 安全 的 需 
要 ， 因 此 该 方法 被 广泛 使 用 。 


但 由 于 使 用 服务 器 集群 不 用 频繁 地 改变 拓扑 结构 ， 所 以 无 需 考虑 有 关 此 类 
0 ° 但 车 频繁 地 发 生 结 构 变 化 ， 则 需要 重新 考量 整个 拓扑 结构 
、 全 型 1 o 


在 VLAN 中 ， 还 存在 上 述 一 些 厂 商 为 自己 的 硬件 定制 的 特殊 种 类 ， 这 些 特 
殊 种 类 上 文中 没有 介绍 到 。 下 面 将 以 服务 器 集群 中 常用 的 VLAN 知识 为 
准 ， 对 “端口 VLAN” 及 “标记 VLAN” 进 行 介绍 。 


端口 VLAN 


端口 VLAN (Port VLAN) 是 为 交换 机 的 各 个 端口 分 配 VLAN ID 的 方法 。 
一 个 端口 对 应 一 个 VLAN ID， 在 集群 上 的 端口 同样 具备 相应 的 识别 ID。 在 
图 3.4.3 中， 端口 1、5、6 为 VLAN1 (VLAN ID 1 所 分 配 的 集群 ) ， 端 口 


2、3、4 为 VLAN2 (VLAN ID 2 所 分 配 的 集群 ) 。 在 该 拓扑 结构 下 ， 同 一 
VLAN 之 间 自 然 能 实现 通信 ,但 VLAN1-VLAN?2 之 间 则 无 法 实现 通信 。 


中 
' 
i 
a 
和 
和 
号 
3 
¥ 
3 
bE 
目 
昌 
中 
中 
是 
有 
有 
a 
时 
了 
和 


图 3.4.3 端口 VLAN 


使 用 端口 VLAN 的 优点 是 ， 连 接 到 该 交换 机 的 客户 端 不 需要 特别 的 设置 ， 
此 外 因为 是 针对 每 个 端口 的 VLAN 设置 ， 可 以 在 一 台 交 换 机 上 完成 ， 因 此 
结构 较为 简单 。 但 使 用 端口 VLAN 也 存在 缺点 ， 比 如 无 法 在 多 人 台 交 换 机 进 
行 集群 化 分 组 。 使 用 端口 VLAN， 可 以 在 多 台 交 换 机 间 进 行 集群 操作 ， 但 
结果 会 导致 折 扑 结构 变 得 更 加 复杂 ， 区 换 机 间 的 流量 也 会 被 这 些 坚 无 关系 
端口 消耗 等 ， 因 此 不 建议 实施 。 在 端口 VLAN 的 拓扑 结构 中 ， 需 要 将 大 规 
模 数 据 交换 的 服务 器 想 办 法 接 入 到 同一 个 交换 机 上 。 


标记 VLAN 


标记 VLAN (Tagged VLAN) 是 指 ， 将 包含 VLAN ID 的 VLAN 识别 信息 

(以 下 简称 VLAN 标签 ) 标记 到 以 太 网 帧 《Ethernet Frame) 中 ， 以 作为 识 
别 各 VLAN 集群 的 方式 。 该 VLAN 标签 是 在 客户 端 或 交换 机 发 出 以 太 网 帧 
的 时 机 被 插入 的 。 在 VLAN 集群 的 管理 上 ， 与 以 端口 为 单位 进行 集群 操作 
的 端口 VLAN 不 同 ， 其 是 以 所 传输 的 数据 帧 为 单位 进行 集群 化 分 组 的 。 
此 就 没有 了 端口 VLAN 中 “一 个 端口 对 应 一 个 VLAN ID” 的 限制 ， 使 得 单位 
端口 也 可 针对 多 个 VLAN 进行 操作 。 


证 过 该 方式 就 能 简单 地 购 成 如 图 3.4.4 那样 的 横 跨 多 个 交换 机 的 VLAN 集群 
在 扑 结构 。 


以 太 网 帧 关 
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图 3.4.4 标记 VLAN 标签 


至 此 好 像 一 直 在 说 标记 VLAN 相对 端口 VLAN 的 优势 ， 但 其 实 附 有 VLAN 
标签 的 以 太 网 由 《被 标记 的 以 太 网 帧 ) 与 一 般 的 以 太 网 帧 相 比 ， 报 文 首部 
不 同 了 。 因 此 从 不 能 识别 VLAN 标签 的 终端 或 同样 不 能 识别 VLAN 标签 的 
网 络 设备 看 来 ， 这 是 不 正确 的 以 太 网 帧 。 也 束 是 说 ， 如 果 将 附带 VLAN 标 
签 的 以 太 网 帧 转发 到 这 些 设 备 ， 结 果 可 能 会 导致 将 本 来 有 效 的 数据 帧 舍弃 
站 VLAN 标签 的 
了 准 用 内。 


3.4.5 ”在 服务 器 集群 中 的 使 用 

接 下 来 以 3.4.2 节 中 介绍 的 服务 器 故障 的 应 对 为 前 提 ， 讨 论 使 用 各 VLAN 技 
术 来 组 建 拓扑 结构 。 以 下 将 考虑 包含 负载 均衡 器 在 内 的 基于 Linux 核心 的 
服务 器 系统 拓扑 结构 。 

不 使 用 VLAN 的 拓扑 结构 


首先 来 考虑 不 使 用 VLAN 的 拓扑 结构 。 如 图 3.4.5 所 示 ， 在 实现 整个 见 余 的 
拓扑 结构 中 ， 需 要 面 对 下 面 儿 个 问题 : 


。 WAN 端的 交换 机 只 有 4 个 端口 可 用 (其 余 的 端口 被 浪费 ) 
。 准 备 的 备用 机 没有 接 入 到 WAN 端的 交换 机 时 ， 不 能 作为 负载 均衡 器 的 
备用 机 使 用 


。 由 于 负载 均衡 器 的 存在 造成 硬件 结构 较为 特殊 (需要 4 块 网 卡 ) 


有 ee 
es | 
| 
| 


加 
加 


QQ 


图 3.4.5 ”整个 元 余 的 拓扑 结构 


为 了 改善 以 上 问题 ， 可 以 考虑 如 图 3.4.6 那样 将 所 有 连接 都 接 入 到 交换 机 上 
的 拓扑 结构 。 


交换 机 


a 


图 3.4.6 ” 接 入 同一 台 交 换 机 的 全 元 余 拓 扑 结构 
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交换 机 
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但 该 方式 存在 一 个 重大 的 问题 。 如 前 所 述 ， 多 播 /广播 帧 会 被 转发 到 所 有 的 
端口 上 。 也 就 是 说 ， 该 结构 会 将 Web 服务 器 段 所 发 生 的 多 播 /广播 帧 传送 
到 WAN 段 的 上 层 路 由 器 。 相 反 WAN 段 也 同样 会 接 到 该 数据 帧 。 因 此 无 论 
征 从 流量 上 来 说 还 是 从 安全 方面 来 说 都 是 不 理想 的 。 也 束 是 说 如 采 不 解决 
这 个 问题 ， 图 3.4.5 的 拓扑 结构 残 依 然 存 在 缺陷 。 


使 用 端口 VLAN 的 拓扑 结构 
使 用 端口 VLAN 的 情况 下 会 是 什么 样 的 拓扑 结构 呢 ? 
请 看 图 3.4.7 的 使 用 端口 VLAN 的 结构 。 同 一 个 交换 机 内 有 两 个 VLAN 集 


群 (VLAN ID1、VLAN ID2) ， 分 别 为 WAN 段 及 内 部 段 所 使 用 ， 因 此 就 
能 更 有 效 地 利用 交换 机 的 端口 了 。 
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图 3.4.7 使 用 端口 VLAN 的 拓扑 结构 示例 1 


虽然 通过 改变 连接 备用 机 端口 的 VLAN 集群 ， 即 可 切换 到 WAN 段 ， 但 由 
于 负载 均衡 器 是 拥有 4 块 网 卡 的 特殊 硬件 结构 ， 因 此 考虑 到 负载 均衡 器 可 
能 会 发 生 故 障 ， 为 了 能 够 将 备用 机 当 作 负载 均衡 器 使 用 ， 需 要 在 备用 机 上 
也 安装 4 块 网 卡 。 此 外 ， 还 必须 考虑 到 如 图 3.4.8 的 多 个 交换 机 结构 中 交换 
机 之 间 的 连接 问题 。 由 于 该 问题 的 存在 ， 无 法 单纯 使 用 VLAN 构建 出 理想 
的 拓扑 结构 ， 实 力 遗 憾 。 
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图 3.4.8 ”使 用 端口 VLAN 的 拓扑 结构 示例 2 
使 用 VLAN 标签 的 拓扑 结构 


\ 
| 
终于 轮 到 探讨 使 用 VLAN 标签 的 情况 了 。 


针对 使 用 端口 VLAN 的 拓扑 结构 所 存在 的 两 点 问题 来 考虑 改善 方案 ， 可 得 

到 如 图 3.4.9 的 结构 。 首 先 将 连接 到 负载 均衡 器 端口 的 VLAN ID1 与 VLAN 

ID2 两 个 集群 进行 必要 的 配置 以 实现 可 操作 ， 另 外 准备 两 块 负载 均衡 器 的 网 

本 面 与 备用 机 及 其 他 服务 器 一 样 ， 像 这 样 组 建 的 话 ， 问 题 就 得 到 了 
有 决 。 


在 本 结构 下 ， 集 群 中 所 接收 的 数据 帧 均 包 含 VLAN 标签 。 如 前 所 述 ， 若 终 
端 无 法 识别 包含 VLAN 标签 的 以 太 了 网 帧 ， 那 么 该 数据 帧 束 很 有 可 能 不 被 处 
理 而 直接 被 忽略 。 但 实际 上 ， 终 端 连 接 存在 限制 的 标记 VLAN， 与 基本 上 

可 连接 任何 终端 的 端口 VLAN 这 两 种 方式 是 可 以 混合 使 用 的 。 也 就 是 说 并 
不 需要 为 所 有 的 数据 帧 都 附带 VLAN 标签 ， 仅 在 端口 VLAN 处 理 较为 困难 
i VLAN 的 情况 下 ， 通 过 标记 VLAN 标签 进行 处 
理 即 可 。 
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图 3.4.9 ”使 用 VLAN 标签 的 拓扑 结构 


在 这 种 情况 下 ， 若 首先 将 连接 到 上 层 路 由 器 的 端口 分 配 到 VLAN ID1 的 端 
口上 ， 剩 下 的 端口 即 VLAN ID2 也 就 只 能 设 定 为 端口 VLAN 了 。 男 外 ， 将 
多 个 VLAN 集群 的 数据 帧 交换 所 必 经 的 端口 (负载 均衡 器 的 端口 ) ， 设 定 
为 “有 ”VLAN 标签 ， 即 将 负载 均衡 器 的 端口 VLAN ID1 设 定 为 “有 ”VLAN 
标签 ， 反之， 将 VLAN ID1 设 定 为 端口 VLAN， 并 将 VLAN ID2 设 定 

为 “有 ”VLAN 标签 也 是 可 以 的 。 另 外 ， 通 过 事先 设 定 “ 当 VLAN 使 用 频繁 
时 ， 不 使 用 标记 VLAN 标签 的 形式 ， 而 使 用 端口 VLAN” 的 规则 ， 可 以 更 简 
单 地 避免 使 用 时 的 混乱 。 


通过 以 上 设 定 ， 能 够 处 理 VLAN 标签 的 终端 就 只 有 负载 均衡 器 了 ， 所 以 在 
此 需要 特别 对 负载 均衡 器 进行 说 明 。 因 为 Linux 支持 标记 VLAN， 因 此 不 
需要 准备 特别 的 硬件 ， 只 需 进行 配置 就 可 以 了 。 在 Linux 上 使 用 标记 
VLAN 的 情况 下 ， 需 要 内 核 支 持 及 相应 的 配置 工具 。 要 确保 内 核 支 持 ， 只 
需 在 编译 时 设 定 “CONFIG_VLAN_8021Q=y ”， 就 能 开启 该 功能 ， 另 外 配置 
工具 方面 可 以 使 用 vconfig 命令 ， 使 用 该 命令 可 建立 VLAN 接口 ， 当 然 该 
工具 也 能 撤销 该 接口 的 建立 。 


在 本 拓扑 结构 中 的 负载 均衡 器 上 执行 vconfig ， 就 建立 了 VLAN ID1 的 新 
端口 eth0.1。 


lvs01:~# aptitude install vlan 
lvs01:~# vconfig add ethg 1 
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改善 。 


通过 使 用 标记 VLAN， 能 够 更 容易 地 搭建 出 类 似 的 物理 结构 ， 让 整个 系统 
中 备 相 当 大 程度 的 储 缩 性 * 但 在 这 里 需要 注意 一 个 问题 ， 即使 用 标记 
VLAN 的 情况 下 逻辑 结构 往往 会 变 得 相对 复杂 。 而 且 与 使 用 端口 VLAN 时 
不 同 ， 可 能 还 需要 增加 对 服务 器 的 设 定 。 因 此 建议 将 端口 VLAN 作为 基本 
的 结构 ， 只 在 必要 的 时 候 采 用 标记 VLAN 的 设 定 。 


3.4.6 ”即便 在 复杂 的 VLAN 结构 下 ， 也 需要 让 物理 层面 的 设备 结 
构 尽 可 能 简易 化 


上 文 的 一 系列 说 明 都 在 阐述 在 服务 右 集 群 中 使 用 VLAN 的 优点 


在 实际 引入 VLAN 时 最 重要 的 是 ， 无 论 使 用 哪 种 VLAN 方法 ， 都 应 该 确保 
拓扑 结构 相对 简易 。 ee A 如 果 因 结构 复杂 而 使 
故障 的 解决 很 花 时 间 ， 甚 至 引起 了 别 的 故障 等 ， 那 就 太 得 不 偿 失 了 。 


而 且 昌 说 要 注重 逻辑 方面 的 结构 ， 但 也 不 能 忽视 物理 层面 的 结构 。 正 如 在 
存在 横 跨 多 个 交换 机 的 段 的 情况 下 ， 0 
送 ， 如 果 此 类 段 有 很 多 ， 就 可 能 存在 带宽 瓶颈 (图 3.4.10) 。 为 了 避免 出 现 
该 问题 ， 在 初期 规划 拓扑 结构 时 就 应 该 对 物理 结构 组 态 及 逻辑 结构 进行 合 
理 规划 。 根 据 需 要 ， 也 可 以 考虑 引入 链 路 聚合 等 确保 带宽 的 技术 。 


VLAN 1、2、3 
的 数据 流量 


后 


Mm 


图 3.4.10 ”交换 机 之 间 出 现 带宽 瓶颈 的 可 能 性 


第 4 章 性 能 优化 、 调 整 
单个 主机 、Apache、MySQL 


4.1 基于 Linux 单个 主机 的 负载 评估 


4.1.1 ”充分 发 挥 单个 主机 的 性 能 


提起 “负载 分 流 ”， 大 多 数 情况 下 和信 们 部会 联想 到 将 “人 负载 “分流” 到 多 台 服 务 
器 进行 处 理 的 机 制 ， 前 三 章 所 叙述 的 也 是 这 种 情况 。 


但 首先 需要 明确 的 是 ， 将 原本 一 人 台 服 务 器 就 能 负载 处 理 的 内 容 ， 分 流 到 十 

儿 台 服务 器 ， 是 否 显 得 有 些 本 末 倒 置 呢 ? 不 首先 想 办 法 充分 发 挥 单个 服务 

器 的 性 能 ， 而 路 过 需要 的 优化 步骤 分 流 到 多 台 服 务 器 进行 负载 均衡 ， 这 样 

人 
”做 重点 讲解 。 


清楚 何 为 性 能 、 何 为 负载 


Linux 


为 了 充分 发 挥 单个 主机 的 性 能 ， 需 要 首先 了 解 “ 什 么 是 性 能 ”。 为 此 就 需要 
掌握 服务 句 资 源 的 使 用 状况 ， 因 此 接 下 来 将 首先 对 相应 的 监控 方式 进行 说 
明 。 在 讲解 监控 方式 的 同时 ， 也 将 顺便 指出 Linux 操作 系统 中 相关 对 象 的 
运行 机 制 。 所 谓 知 其 负载 必 移 知 其 操作 系统 之 机 制 。 而 如 条 不 知道 操作 系 
统 的 运作 行为 ， 就 难以 诊断 出 系统 当前 的 状态 。 


参考 Linux 的 内 核 源码 (Kernel Source) ， 就 能 具体 明白 “负载 的 定义 了 。 
虽说 通过 监控 可 以 得 知 状态 信息 ， 但 不 了 解 监控 的 实质 含义 束 无 法 进行 考 
察 衡量 。 例 如 需要 在 多 任务 处 理 (Multitasking) 的 运行 原理 中 明白 进程 状 
态 和 负载 之 间 的 关系 。Web 应 用 程序 的 负载 分 发 通常 都 是 “分 流 或 减轻 磁盘 
IO” 的 工作 。 不 同 操作 系统 中 IO 的 优化 策略 也 有 所 不 同 。 操 作 系统 为 了 诚 
轻 IO 设立 了 缓存 等 机 制 ， 充 分 利用 系统 中 的 缓存 是 降低 系统 IO 的 诀 穷 。 


如 条 知 道 操 作 系 统 的 运行 原理 和 人 负载 的 监控 方式 ， 原 本 只 能 治标 ， 现 在 也 
能 从 根本 上 解决 了 。 帮 操作 系统 出 现 瓶 颈 ， 系 统 出 现 了 性 能 问题 ， 也 可 以 
按照 基本 党 略 查 明 其 原因 。 下 面 我 们 来 看 一 下 具体 方法 。 


针对 单一 主机 实施 优化 策略 意味 着 需要 确认 在 操作 系统 上 运行 的 中 间 件 。 
虽说 只 要 操作 系统 以 理想 状态 运行 ， 应 用 软件 基本 上 都 能 发 挥 出 相应 性 
能 。 但 世事 难 料 ， 服 务 器 不 能 保证 100% 不 出 问题 。 所 以 接 下 来 我 们 也 将 了 
种 一 web 服务 器 和 数据 库 服 务 器 的 优化 操作 ， 这 是 Web 程序 + 数据 库 软 
运作 的 核心 。 


本 章 是 以 Linux 2.6 版 内 核 的 操作 系统 为 基础 来 介绍 的 。 但 由 于 近 几 年 多 任 
务 处 理 的 操作 系统 也 基本 上 都 以 类 似 的 原理 运作 ， 因 此 即使 是 其 他 版 本 的 
内 核 或 操作 系统 ， 本 章 的 介绍 也 能 适用 。 

4.1.2 ” 别 脐 断 ， 请 监控 

发 挥 单个 主机 的 性 能 需要 正确 掌握 服务 器 资源 的 使 用 情况 。 也 就 是 说 ， 需 
要 监控 服务 器 的 负载 究竟 到 了 什么 样 的 程度 ， 因 此 这 一 监控 工作 对 降低 单 
个 服务 器 的 负载 也 是 非常 重要 的 。 

在 程序 员 之 间 有 一 句 很 有 名 的 格言 : 

别 膀 断 ， 请 监控 

负载 分 流 的 情况 也 不 例外 。 


因为 Apache 和 MySQL 等 应 用 软件 都 运行 于 操作 系统 上 ， 所 以 监控 负载 情 
况 束 意味 着 要 监控 操作 系统 。 奉 对 操作 系统 都 不 了 解 ， 何 谈 负 载 分 流 ? 操 


作 系 统 (此 处 为 Linux 内 核 ) 可 以 查看 负载 所 需 的 全 部 信息 。 


在 Linux 中 使 用 ps 、top 、sar 等 工具 。 这 些 工 具 都 是 Linux 命令 行 工 
具 ， 可 以 据 此 检查 并 监控 Linux 内 核 内 部 的 各 种 统计 信息 。 例 如 ， 运 行 top 
命令 后 ， 终 端 如 图 4.1.1 所 示 。 


top - 19:50:21 up 150 days, 4:38, 1 user, load average: 0.70, 0.66, 
0.59 

: 104 total, 2 running, 102 sleeping, 9 stopped, 9 zombie 

: 21.8%us, OQ0.6%sy, 0.0%ni, 77.2%id, Q.0%wa, 0.1%hi, 0.3%si, 


4028676k total, 2331860k used, 1696816k free, 150476Kk 
2048276k total, 9284k used, 2038992k free, 425064k cached 


USER N 
apache 
apache 
apache 
apache 
apache 
root 
root 
migration/0 
3 root 
ksoftirqd/0 
< 以 下 省 略 > 


VIRT RES SHR S %CPU %MEM COMMAND 
394m 154m 100 3. S23 httpd 
390m 153m 26 httpd 
360m 122m 4 1 25 httpd 
371m 133m 2 5 "13; httpd 
343m 105m 2 httpd 
10304 80 0 init 
0 0 0 


OOOOO©OOH 
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图 4.1.1 top 的 输出 示例 


top 命令 是 表示 系统 瞬间 状况 的 快照 信息 。 该 工具 所 输出 的 信息 会 随 着 时 
间 流 渤 刷 新 内 容 ， 因 此 非常 便于 观察 系统 负载 的 趋势 。 


例如 ， 使 用 top 工具 能 够 查阅 系统 的 CPU 使 用 率 和 内 存 的 使 用 状况 等 数 
值 。 通 过 从 这 些 数 值 判断 ， 虽 然 能 清楚 地 确认 系统 的 负载 状况 ， 但 十 这 些 
数值 涉及 的 项 目 及 类 型 很 多 ， 究 竟 如 何 了 解 这 些 数 值 的 意义 呢 ? 为 此 就 需 
要 清楚 “什么 古人 负载 ”。 


在 详细 介绍 “什么 是 负载 之前， 我 们 先 来 看 一 下 如 何 确认 生产 环境 中 发 生 
的 瓶 祷 。 


4.1.3 ”确认 瓶颈 的 基本 流程 


要 想 清 楚 了 解 生 产 环境 中 所 发 生 的 瓶颈 的 情况 ， 请 注意 以 下 几 点 : 

。 观 察 load average (平均 负载 ) 

。 观察 CPU、LO 是 否 存在 瓶颈 
接 下 来 将 详细 讲解 各 个 基本 流程 。 
观察 load average 
首先 ， 作 为 重要 的 负载 评估 指标 ， 需 要 通过 top 和 uptime 等 命令 查看 
load average。load average 可 以 衡量 整个 系统 的 负载 情况 。 虽 说 仅 通 过 load 
average 还 不 能 判断 出 系统 出 现 瓶 颈 的 原因 在 哪里 ， 但 可 从 load average 着 
手 进行 系统 瓶颈 的 调查 。 


有 时 在 load average 较 低 时 ， 系 统 的 否 吐 量 有 可 能 还 是 达 不 到 要 求 。 此 时 就 
需要 查看 软件 的 配置 是 否 不 合理 ， 网 络 、 远 程 主机 方面 是 否 存在 问题 等 。 


观察 CPU、LO 是 否 存在 瓶颈 

当 load average 较 高 时 ， 需 要 确认 CPU 和 IO 哪个 存在 问题 。 通 过 使 用 sar 
或 vmstat 等 工具 ， 可 以 确认 一 段 时 间 内 的 CPU 使 用 率 和 LO 等 等 的 情 

况 。 确 认 后 即 可 进入 下 一 个 阶段 。 

当 CPU 负载 较 高 时 

CPU 负载 较 高 时 ， 可 以 按照 下 面 的 流程 来 排查 问题 所 在 : 


。 通 过 top 和 sar 等 工具 来 判断 是 用 户 程序 (Web 应 用 程序 ) 的 原因 ， 
还 是 系统 程序 (操作 系统 ) 的 原因 


。 一 边 通 过 ps 命令 来 查看 进程 状态 以 及 CPU 使 用 时 间 等 数据 ， 一 边 锁 
定 出 现 问 题 的 进程 


。 如 果 要 进一步 了 解 所 锁定 的 进程 的 具体 行为 ， 可 以 使 用 strace 命令 进 
行 跟踪 (Trace) ， 也 可 以 使 用 oprofile 工具 在 计数 器 中 断 处 理 入 口 处 
建立 监测 点 ， 以 缩小 监控 瓶颈 的 范围 
造成 CPU 负载 过 重 的 原因 通常 是 


。 磁盘 及 内 存 占用 尚未 超标 的 情况 下 ( 即 IO 不 存在 瓶颈 ) ， 系 统 的 
load average 指标 依旧 很 高 


。 程序 的 逻辑 部 分 负载 超过 CPU 的 承受 能 力 且 不 受 控制 
如 果 是 前 者 且 系 统 吞 吐 性 能 也 出 现 了 问题 ， 可 以 尝试 通过 增设 服务 器 、 改 
善 程序 逻辑 和 算法 来 解决 问题 。 后 者 的 情况 下 要 注意 程序 没有 预料 到 的 流 
程 ， 以 避免 出 现 程序 失控 的 状况 。 
当 LO 负载 较 高 时 
IO 负载 较 高 基本 上 有 两 种 情况 ， 一 种 是 来 自 程序 本 身 的 磁盘 读 写 较为 频 
繁 ， 造 成 该 程序 输入 输出 负载 比较 高 ; 另 一 种 是 因 使 用 了 Linux SWAP 交换 
区 而 造成 磁盘 的 频繁 访问 。 通 过 使 用 sar 及 vmstat 命令 确认 SWAP 交换 
区 的 状况 ， 即 可 分 辨 出 到 底 是 哪 一 种 情况 。 


如 果 确 认 后 发 现 发 生 了 频繁 访问 SWAP 交换 区 的 情况 ， 可 通过 以 下 几 个 步 
骤 来 查 出 问题 所 在 : 


。 通过 ps 命令 确认 是 否 有 特定 进程 消耗 了 大 量 内 存 


。 由 于 程序 不 受 控制 而 造成 内 存 占用 过 大 时 ， 可 以 修改 相应 的 程序 逻辑 
来 解决 问题 
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如 有 果 没 有 频繁 访问 SWAP 交换 区 ， 且 们 恕 上 依然 频繁 发 生 输 入 输出 ， 该 情 
况 下 可 以 认为 是 缓存 所 需 的 内 存 不 足 。 可 以 根据 服务 器 装载 的 磁盘 容量 以 
及 可 以 扩充 的 内 存 容 量 ， 分 以 下 几 种 情况 来 考虑 : 

。 通过 扩展 内 存 缓存 以 实现 扩展 缓存 容量 时 ， 优 先 扩 充 内 存 容 量 


。 无 法 通过 扩充 内 存 容 量 来 解决 问题 时 ， 需 要 考虑 数据 分 流 和 增设 缓存 
服务 器 等 方案 。 当 然 也 可 以 考虑 改善 程序 以 减轻 IO 频率 


以 上 是 寻找 发 生 负 载 的 原因 的 基本 方法 。 在 此 基础 上 ， 接 下 来 就 让 我 们 一 
起 来 了 解 下 "为 什么 发 生 瓶 颈 后 ， 逐 步 缩小 造成 系统 瓶颈 问题 的 原因 的 范围 
是 完全 可 以 实现 的 ” 。 


4.1.4” 何 为 负载 
究竟 负载 指 的 是 什么 呢 ? 针对 负载 ， 下 文 将 从 以 下 几 点 着 手 
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两 种 负载 

一 般 来 说 ， 负 载 可 以 分 为 两 大 部 分 : 
。CPU 负载 
。1O 负载 


例如 ,假设 有 一 个 进行 大 规模 科学 计算 的 程序 ， 虽 然 该 程序 不 会 频繁 地 从 
磁盘 输入 输出 ， 但 是 处 理 完成 需要 相当 长 的 时 间 。 因 为 该 程序 主要 被 用 来 
做 计算 、 逻 辑 判断 等 处 理 ， 所 以 程序 的 处 理 速度 主要 依赖 于 CPU 的 计算 速 
度 。 此 类 CPU 负载 的 程序 称 为 “计算 密集 型 程序 ”(CPU Bound) 。 


还 有 另 一 类 程序 ， 主 要 从 磁盘 保存 的 大 量 数据 中 搜索 找 出 任意 文件 。 这 个 
搜索 程序 的 处 理 速度 并 不 依赖 于 CPU， 而 是 依赖 于 磁盘 的 读 取 速度 ， 也 就 
是 输入 输出 〈InpuyOutput，LIO) 。 磁盘 越 快 ， 检 索 人 花费 的 时 间 就 越 短 。 此 
类 IO 负载 的 程序 ， 称 为 “1/O 密集 型 程序 ”(1/O bound) 。 


一 般 来 说 ，AP 服务 右 所 做 的 处 理 是 将 从 数据 库 服务 器 获得 的 数据 进行 加 工 
后 交 给 客户 端 。 在 此 过 程 中 ， 该 AP 服务 器 应 该 不 会 发 生 大 规模 的 IO， 
此 通常 可 认为 AP 服务 右 是 计算 密集 型 的 服务 器 。 


另 一 方面 ， 数 据 库 服务 器 是 构成 Web 应 用 程序 的 另 一 系统 要 素 ， 其 主要 工 
作 是 从 磁 强 检索 数据 ， 特 别 是 当 数据 规模 较 大 时 ， 比 起 CPU 的 计算 时 间 ， 
IO 速度 更 能 影响 数据 库 服务 器 的 快慢 ， 因 此 数据 库 服 务 器 属于 IO 密集 型 
服务 右 。 男 外 ， 即 使 是 相同 的 服务 器 ， 根 据 造 成 负载 的 原因 不 同 ， 其 特性 
但 会 妥 生 很 大 要 化 ” 

多 任务 操作 系统 与 负载 

Windows 和 Linux 等 近 几 年 的 多 任务 操作 系统 能 够 同时 处 理 几 个 不 同名 称 
的 任务 。 但 是 在 同时 运行 多 个 任务 的 过 程 中 ，CPU 和 磁盘 这 些 有 限 的 硬件 


资源 就 需要 被 这 些 任务 程序 共享 。 即 在 很 短 的 时 间 间隔 内 ， 需 要 一 边 在 这 
些 任务 之 间 进行 切换 一 边 进 行 处 理 ， 这 就 是 多 任务 (图 4.1.2) 


图 4.1.2 多 任务 


运行 中 的 任务 较 少 的 情况 下 ， 系 统 并 不 等 待 此 类 切换 动作 的 发 生 。 但 是 当 
任务 增加 时 ， 例 如 任务 A 正在 CPU 上 执行 计算 ， 接 下 来 如 果 任 务 B 和 C 
也 想 进行 计算 ， 那 么 就 需要 等 待 CPU 空间 。 也 就 是 说 ， 即 使 想 运 行 处 理 某 
人 
迟 。 


top 的 输出 中 包含 "load average” 的 数字 。 


load average: 0.70, 0.66, 0.59 


load average 从 左边 起 依次 是 在 过 去 1 分 钟 、5 分 钟 、15 分 钟 内 ， 单 位 时 间 
的 等 待 任务 数 ， 也 就 是 表示 平均 有 多 少 任务 正 处 于 等 待 状态 。 在 load 
average 较 高 的 情况 下 ， 就 说 明 等 待 运行 的 任务 较 多 ， 因 此 轮 到 该 任务 运行 
的 等 待 时 间 就 会 出 现 较 大 延迟 ， 即 反映 了 此 时 负载 较 高 。 

但 是 ，load average 的 数字 只 是 表示 等 待 的 任务 数 ， 仅 根据 load average 并 
不 能 判断 具体 是 CPU 负载 高 还 是 IO 负载 高 。 因 此 最 终 要 判断 服务 器 资源 
具体 哪里 遭遇 了 瓶颈 ， 还 需要 再 做 一 些 细致 的 调查 。 


。 具体 看 哪个 数值 能 判断 系统 的 瓶颈 呢 ? 各 个 数值 分 别 反应 了 系统 哪里 
的 状态 呢 


。 load average 表示 的 “等 待 任务 ”具体 等 竺 的 是 什么 呢 
De ei 


搞 清 负载 的 本 来 面目 = 知晓 内 核 的 行为 


所 谓 “ 人 负载 "， 其 实 也 只 不 过 是 用 一 个 词 表示 了 因 多 任务 的 服务 此 资源 争夺 
而 产生 的 等 待 时 间 。 为 了 搞 清 负载 的 本 来 面目 ， 需 要 明日 系统 在 什么 情况 
下 会 进行 “等 竺 任务 ”的 动作 ， 也 就 是 需要 明日 Linux 内 核 的 运行 。 


Linux 内 核 中 的 “进程 调度 器 ”(Process Scheduler) 是 支配 任务 等 待 的 程序 。 
在 多 任务 的 支配 中 ， 进 程 调 度 器 负责 决定 任务 运行 的 优先 级 ， 以 及 让 任务 
等 待 或 使 之 重新 开始 等 内 核 中 的 核心 工作 。 通 过 进程 调度 器 查看 进程 的 概 
要 ， 从 而 就 可 以 掌握 该 进程 所 对 应 的 负载 情况 。 


进程 调度 和 进程 状态 


“进程 ” (Process) 是 程序 在 系统 中 运行 的 基本 单位 。 进 程 与 表示 内 核 中 的 
运行 的 单位 “任务 ” (Task) 在 狭义 上 虽然 有 所 区 别 ， 但 这 里 把 两 者 理解 为 一 
个 意思 也 不 妨碍 对 下 文 的 理解 。 


例如 ， 在 运行 1s 命令 的 时 候 ，1s 的 二 进 制 文件 的 机 器 语言 命令 在 内 存 中 
被 展开 ， 紧 接着 CPU 在 内 存 中 访问 (Fetch) 命令 并 执行 。 为 了 完成 该 命令 
的 执行 ， 需 要 了 解 1s 命令 使 用 的 各 个 内 存 区 域 的 地 址 、 运 行 中 的 命令 位 置 

(程序 计数 器 ，Program Counter) 、1s 命令 打开 的 文件 一 览 等 各 种 信息 。 
通过 将 这 些 信息 归纳 整理 ， 汇 总 出 正在 运行 的 程序 ， 可 以 更 方便 地 弄 清楚 
°。 因此 ， 此 处 所 指 的 进程 ， 即 汇总 了 “程序 命令 "和 “运行 时 所 需 信 息 ” 的 
对 银 。 


在 Linux 内 核 中 ， 每 一 个 进程 都 存在 一 个 名 为 “进程 描述 符 ” (Process 
Descriptor) 的 管理 表 。 该 进程 描述 符 中 保存 有 各 种 执行 时 的 信息 1 。 


| 1 进程 描述 符 在 Linux 内 核 编码 中 采用 task_struct 结构 。 具 体 在 内 核 源 代码 的 include/linux/sched.h 
| 中 有 其 定义 ， 有 兴趣 的 读者 可 以 研究 一 下 。 


在 Linux 内 核 中 ， 各 进程 描述 符 会 被 调整 为 按照 优先 级 降序 排列 ， 以 按 合 
(任务 ) 。 这 个 调整 即 为 “进程 调度 器 ”的 工作 (图 
4.1.3 


准备 执行 
队列 


图 4.1.3 ”进程 调度 器 
调度 器 划分 并 管理 进程 的 状态 。 例 如 ， 


。 等 待 分 配 CPU 资源 的 状态 
。 等 待 磁盘 输入 输出 完毕 的 状态 


进程 描述 符 中 有 保存 此 状态 的 区 域 (task_struct 结构 体 中 的 state 成 员 ) 。 
各 个 状态 的 区 别 如 表 4.1.1 所 示 。 


表 4.1.1 进程 描述 符 的 状态 的 区 别 


| | 0 尖 I l 


可 中 断 的 等 待 状态 。 主 要 为 恢复 时 间 无 法 预测 的 长 时 间 竺 
TASK_INTERRUPTIBLE | 待 状态 。 例 如 系统 睡眠 或 来 自 于 用 户 的 输入 的 等 待 等 


不 可 中 断 的 等 待 状态 。 人 
TASK_UNINTERRUPTIBLE | 入 加 磁 可 输入 输出 的 等 


Du, pu er 中 断 的 状态 。 直 到 恢复 (Resume) 前 
僵 死 状态 。 虽 然 子 进程 已 经 终止 (exit) ， 但 父 进程 (进程 

TASK_ZOMBIE 尚未 执行 wait()， 因此 该 进程 的 资源 没有 被 系统 释 
万 


调度 器 在 管理 各 个 进程 的 运行 状态 的 同时 ， 还 会 根据 情况 变更 状态 以 控制 
任务 的 执行 顺序 。 


进程 状态 变迁 的 具体 例子 

下 面 来 看 个 具体 的 例子 。 该 例子 中 有 三 个 进程 四 、 田 、@ 同时 运行 。 首 
先 ， 每 个 进程 在 生成 后 都 是 可 运行 状态 ， 也 就 是 从 TASK_RUNNING 的 状 
态 开始 。 这 里 请 注意 TASK_RUNNING 是 “可 运行 的 等 待 状态 ”， 而 不 是 “ 现 
在 正在 运行 ”的 状态 。 


。 进 程 @ :TASK_RUNNING 


。 进 程 @ : TASK_RUNNING 
。 进程 O: TASK_RUNNING 


TASK_RUNNING 的 三 个 进程 立即 成 为 调度 对 象 。 此 时 ， 假 设 调度 器 给 进 
程 久 : TASK_RUNNING 分 配 了 CPU 的 运行 权限 。 


。 进 程 @ : TASK_RUNNING 正在 运行 
。 进程 BB: TASK_RUNNING 
。 进程 OO: TASK_RUNNING 


由 于 在 Linux 内 核 中 无 法 区 别 正在 运行 的 状态 和 可 运行 的 等 待 状态 。 为 了 
直观 起 见 ， 这 里 将 该 状态 称 为 "TASK_RUNNING 正在 运行 ”。 


因为 分 配 了 了 CPU， 所 以 进程 久 开 始 处 理 。 进 程 岛 和 则 在 此 等 竺 进程 四 迁 
出 CPU。 


假设 @ 进行 若干 计算 之 后 ， 需 要 从 磁盘 读 取 数据 。 那 么 在 鸟 发 出 读 取 磁盘 
0 到 请 求 的 数据 到 达 之 前 ， 将 不 进行 任何 工作 。 此 状况 称 
为 "四 因 等 待 IO 操作 结束 而 被 阻塞 ”。 在 IO 完成 处 理 前 ， 四 一 直 处 于 等 待 
状态 UNINTERRUPTIBLE) ， 并 不 使 用 CPU“。 于 是 调度 器 就 查看 
B@ 和 © 的 优先 级 计算 结果 ， 将 CPU 运行 权限 交 予 优先 级 较 高 的 一 方 。 


这 里 假设 @@ 的 优先 级 高 于 晶 。 


。 进程 : TASK_UNINTERRUPTIBLE 


。 进程 BB : TASK_RUNNING 正在 运行 


。 进 程 O@ : TASK_RUNNING 


田 刚 开始 运行 ， 就 需要 等 待 用 户 的 键盘 输入 。 于 是 四 进入 等 待 用 户 输入 状 
态 ， 同 样 被 阻塞 。 结 果 就 变 成 人 @@ 和 @@ 都 要 等 待 输 出 ， 运 行 日 。 这 时 鸭 各 
都 是 等 竺 状态 ， 但 是 等 竺 磁盘 输入 输出 和 等 待 键盘 输入 为 不 同 的 状态 。 等 
待 键盘 输入 是 无 期 限 长 时 间 的 事件 等 待 (TASK_INTERRUPTIBLE) ， 而 读 
熏 则 是 必须 短 时 间 内 完成 的 事件 等 待 ， 这 是 两 种 状态 有 所 区 别 的 原因 。 


各 进程 的 状态 如 下 所 示 。 


。 站 TASK_UNINTERRUPTIBLE (等 竺 磁盘 输入 输出 /不 可 中 


。 进程 BB : TASK_INTERRUPTIBLE (等 待 键盘 输入 / 可 中 断 ) 
。 进 程 O : TASK_RUNNING 正在 运行 
这 次 假设 在 进程 @ 运行 的 过 程 中 ， 进 程 @ 请 求 的 数据 从 磁盘 到 达 了 缓冲 装 


置 。 紧 接 疹 便 副 对 内 核发 出 中 断 信 号 ， 内 核 知 道 磁 副 读 取 完 成 ， 将 进程 外 
恢复 为 可 运行 状态 。 


。 进程 @ : TASK_RUNNING 
。 进 程 B@ : TASK_INTERRUPTIBLE 
。 进 程 O : TASK_RUNNING 正在 运行 
此 后 进程 @ 也 会 变 为 某 种 等 待 状态 。 例如: 
。 CPU 的 占用 时 间 超 出 了 上 限 
。 任务 结束 
。 进 入 LO 等 待 
ee 调度 器 就 可 以 完成 从 进程 上 到 进程 @ 的 进程 状态 的 切 
进程 状态 迁移 汇总 


以 上 进程 的 状态 变迁 如 图 4.1.4 所 示 。 像 这 样 进程 被 定义 为 儿 个 状态 以 作 区 
分 ， 进 程 在 各 状态 间 迁 移 的 同时 会 进行 必要 的 计算 或 者 改变 响应 IO 的 行 
为 。 进 程 的 状态 变迁 对 深入 理解 系统 负载 有 很 大 的 意义 。 


正在 运行 
TASK_RUNNING 


等 待 
启动 /重启 ff: 断 加 


等 待 事件 
生成 运行 侍从 唤醒 TASK_INTERRUPTIBLE 
gk TASK_RUNNING We 或 者 


TASK_UNINTERRUPTIBLE 


图 4.1.4 ”进程 的 状态 迁移 
换算 到 load average 的 等 待 状态 
进程 A~C 在 发 生 状 态 迁 移 的 过 程 中 ， 出 现 了 四 种 状态 : 
。TASK_RUNNING 正在 运行 
。 TASK_RUNNING 
。TASK_INTERRUPTIBLE 
。TASK_UNINTERRUPTIBLE 
load average 是 表示 “等 竺 进程 的 平均 数 ” 的 数字 。 四 个 状态 中 ， 
除 “TASK_RUNNING 正在 运行 以外， 其余 三 个 都 是 等 候 状 态 。 而 这 三 个 进 
程 的 等 待 状态 都 会 被 加 权 换 算 为 相应 的 load average 吗 ? 


事实 证 明 ， 只 有 TASK_RUNNING 和 TASK_UNINTERRUPTIBLE 会 被 换 
算 为 load average，TASK_INTERRUPTIBLE 则 不 能 被 换算 。 也 就 是 说 : 


。 即便 需要 即刻 使 用 CPU ， 也 还 需 等 待 其 他 进程 用 完 CPU 
。 即便 需要 继续 处 理 ， 也 必须 等 待 磁盘 输入 输出 完成 才能 进行 
以 上 两 种 情况 的 进程 才 会 表现 为 load average 的 数值 。 
两 种 状态 的 共同 点 是 “虽然 需要 即刻 运行 处 理 ， 但 是 无 论 如 何 都 必须 等 


候 ”。 另 一 方面 ， 即 使 同样 是 在 等 待 ， 键 盘 输入 等 竺 或 睡眠 等 待 与 程序 明示 
的 等 竺 也 不 相同 ， 它 们 不 包含 在 load average 换算 的 范围 中 。 另 外 ， 来 目 远 


程 主机 的 数据 ， 例 如 来 信 等 每 ， 由 于 无 从 得 知 对 方 何 时 会 发 来 数据 ， 因 此 
也 不 能 换算 为 load average 。 


load average 是 表示 系统 负载 的 指标 ， 可 见 以 上 两 点 的 等 待 状态 与 系统 负载 
是 挂钩 的 。 


load average 表述 的 负载 意义 


硬件 会 以 特定 的 周期 间隔 向 CPU 发 出 中 断 信 号 。 因 为 是 按 特定 的 间隔 发 出 
的 信号 ， 因 此 被 称 作 * 计 时 器 中 断 ”(Timer Interrupt) 。 例 如 在 CentOS 5 
中 ， 中 断 间隔 被 设置 为 4ms 〈 训 秒 ) 。 每 次 中 断 时 ，CPU 都 将 推进 时 间 ， 
计算 该 时 间 间 隔 内 运行 的 进程 所 占用 的 CPU 情况 等 ， 进 行 与 时 间 有 关 的 处 
| 的 间隔 中 ， 计 算出 该 时 间 间 隔 内 load average 的 


在 内 核 的 计时 万 中 断 中 ， 可 以 预先 算出 处 于 可 运行 状态 的 任务 和 处 于 IO 等 
待 状态 的 任务 的 数量 。 通 过 用 该 数字 除 以 单位 时 间 ， 了 就 可 以 算出 相应 的 


load average ° 


* 米 * 


到 目前 为 止 ，“load average 显示 的 负载 的 本 来 面 目 ” 束 显而易见 了 “。 总 之 ， 
load average 所 描述 的 负载 就 是 : 


需要 运行 处 理 但 又 必须 等 待 队列 前 的 进程 处 理 完 成 的 进程 个 数 。 
具体 来 说 就 是 : 

。 等 待 被 授予 CPU 运行 权限 的 进程 

。 等 待 磁盘 IO 完成 的 进程 
这 个 确实 与 直观 感觉 相符 。 在 很 占用 CPU 资源 的 处 理 中 ， 例 如 在 进行 动画 
编码 等 的 过 程 中 ， 虽 然 想 进 行 其 他 相同 类 型 的 处 理 ， 结 果 系 统 反 应 却 变 得 
很 慢 ， 还 有 从 磁盘 读 取 大 量 数据 时 ， 系 统 的 反应 同样 也 会 变 得 很 慢 。 但 忆 
一 方面 ， 无 论 有 多 少 等 得 键盘 输入 操作 的 进程 ， 也 不 会 让 系统 响应 变 得 很 


滥 


专栏 
用 工具 观察 进程 状态 ..…...ps 


虽然 TASK_RUNNING 和 TASK_INTERRUPTIBLE 等 在 内 核 中 的 处 理 状 
态 存 在 区 别 ， 但 是 可 以 从 用 户 进程 查看 此 状态 。 具 体 可 以 通过 ps 和 
top 等 命令 将 该 信息 以 一 定 的 格式 显示 出 来 。 以 下 是 ps 命令 的 输出 。 


% ps auxw | egrep (STAT|httpd) 

USER PID %CPU %MEM VSZ RSS TTY STAT START TIME 
COMMAND 

root 10861 0.0 1.7 295256 69020 ? Ss Feb07 
/usr/sbin/httpd 

apache 18711 7.2 3.1 366744 125176 ? R 00:13 


/usr/sbin/httpd 
apache 18827 8.1 3.8 396636 154696 ? S 00:18 
/usr/sbin/httpd 
apache 18898 9.0 3.9 400188 158492 ? S 00:22 
/usr/sbin/httpd 


请 注意 STAT 列 。 根 据 man ps 的 结果 ,“S” 是 “Interruptible Sleep”， 相 当 
于 TASK_INTERRUPTIBLE 。“R” 是 “Running or Runnable 


(onrunqueue) ”x*1 ,相当 于 TASK_RUNNINGX*? 。 可 见 ps 的 STAT 项 和 
内 核 的 进程 状态 是 对 应 的 关系 。 


党 1 ”runqueue 即 运行 队列 ， 处 于 可 运行 状态 的 进程 在 内 核 中 排列 的 队列 。 


六 2 “Ss” 的 s 表 示 控 制 进程 (Session Leader) 。 


。R(Run):TASK_RUNNING 
。 S(Sleep):TASK_INTERRUPTIBLE 
。 D(Disk Sleep):IASK_UNINTERRUPTIBLE 
。Z(Zombie)j:TASK_ZOMBIE 
其 他 项 目 所 表示 的 意义 请 参照 ps 的 参考 


4.1.5 “计算 load average 的 内 核 编码 


为 了 让 大 家 对 load average 的 计算 方式 能 了 解 得 更 加 具体 ， 接 下 来 我 们 来 研 
一 下 它 在 内 核 中 的 代码 。 这 里 参照 Linux 内 核 2.6.23 的 编码 。 


计算 load average 的 函数 为 kernei/timer.c 的 calc- load0 。 每 次 硬件 产生 计时 
右 中 断 时 都 会 调用 该 函数 。 在 CentOS 5 中 ， 计 时 吉 中 上 断 的 周期 是 4ms， 
此 每 4ms 束 会 调用 一 次 calc-load0 。 


tm 


册 。 


unsigned long avenrun[3] ; 
EXPORT_SYMBOL (avenrun); 


static inline void calc load 


(unsigned long ticks) 


{ 


unsigned long active_ tasks; /* fixed-point */ 
static int count = LOAD_FREQ; 


count -= ticks; 
If (unlikely(count < 0)) { 
active_ tasks = count active tasks 


CALC_LOAD(avenrun[0], EXP_1, active_ tasks); 
CALC_LOAD(avenrun[1], EXP_5, active_ tasks); 
CALC_LOAD(avenrun[2], EXP_15, active_ tasks); 
count += LOAD_FREQ ， 

} while (count < 0); 


可 以 看 出 ， 在 calc-load0 函数 中 ， 全 局 数组 averun 中 存储 了 
count_active_tasks() 函数 的 计算 结果 。count_active_tasksO0， 顾 名 思 义 ， 束 
是 统计 该 时 间 系 统 内 存在 的 “Active 的 任务 (进程 ， 数 *。 但 这 个 “Active 的 
任务 ”究竟 是 什么 呢 ? 如 果 再 试 着 追踪 处 理 流 程 ， 就 会 发 现 是 kernel/sched.c 
的 nr_active() 函数 。 


unsigned long nr_active 


(void) 
{ 


unsigned long i, running = 0, uninterruptible = 0; 


for_each_online cpu(i) { 
running += cpu_rq(i)->nr_running; 
uninterruptible += cpu_rq(i)->nr_uninterruptible; 


} 


If (unlikely((long)uninterruptible < 0)) 
uninterruptible = 0; 


return running + uninterruptible; 


for_each_online_cpu() 枚 举 了 cpuid 〈 即 枚 举 了 系统 当前 使 用 所 有 CPU 核心 
的 ID 值 ) 。 还 有 ，cpu_rq(0 是 取得 CPU 相关 运行 队列 ?的 宏 。 因 此 在 这 里 
可 以 清楚 地 按 顺 序 查 看 各 CPU 的 运行 队列 。 在 运行 队列 中 ， 


?存储 等 待 状态 的 任务 描述 符 的 队列 。 


。 cpu_rq(i)->nr_running 
。 cpu_rq(i)->nr_uninterruptible 


获取 以 上 两 个 数值 并 进行 计算 ， 然 后 返回 结果 。 从 名 字 就 能 看 出 ， 二 者 分 
别 相当 于 各 运行 队列 内 的 TASK_ RUNNING 和 TASK_UNINTERRUPTIBLE 
的 进程 数 。 


这 个 nr_active() | 返回 的 数值 会 被 传递 给 前 述 的 calc_load0 函数 ， 并 以 1 
分 钟 、5 分 钟 、15 分 钟 为 单位 来 进行 计算 ， 计 算得 出 的 值 将 存储 在 averun 
数组 中 ， 因 此 averun 数组 中 所 存储 的 数值 束 是 load average 的 原形 。 


如 果 用 户 进 程 发 出 了 读 取 proc 文件 系统 的 /proc/loadavg 的 请 求 ， 内 核 束 会 
0 averun 数组 加 以 整理 并 发 送 至 用 户 空间 。 让 我 们 先 来 确认 一 下 
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% cat /proc/loadavg 
0.01 0.05 0.00 4/46 10511 


top 或 uptime 命令 从 该 输出 中 取得 load average， 并 将 其 显示 出 来 。 


在 本 下 中 ， 我 们 了 解 了 在 系统 源码 中 ， 每 次 计时 器 中 上 断 都 会 进行 load 
average 的 计算 ， 即 代码 将 通过 统计 TASK_RUNNING 及 
TASK_UNINTERRUPTIBLE 状态 的 等 待 任务 数 来 计算 出 load average 。 


4.1.6 ”通过 1oad average 判断 CPU 使 用 率 和 1/O 等 待 时 间 


通过 观察 load average 具体 的 计算 方法 ， 残 可 以 明白 该 数值 表示 了 CPU 负 
载 和 IO 负载 。 例 如 系统 负荷 过 重 的 情况 下 ， 大 多 数 也 是 因为 CPU 或 IO 
出 现 了 问题 。 因 此 ， 查 看 load average 后 发 现 需 要 有 所 应 对 时 ， 接 下 来 就 要 
调查 CPU 或 IO 哪里 有 问题 。 


使 用 sar 来 查看 CPU 使 用 率 及 1/O 等 待 时 间 


通常 在 系统 中 ，CPU 使 用 率 和 IO 等 候 时 间 (IO 等待 率 ) 等 指标 都 是 不 断 
在 变化 的 ， 可 以 通过 sar 命令 来 确认 这 些 指 标 。 正如 sar (System 


Activity Reporter) 的 全 称 所 表 壕 的 那样 ， 该 工具 常 被 用 于 浏 贤 系 统 状 况 报 
告 。 该 工具 包含 在 sysstat 软件 包 内 。 


图 4.1.5 是 计算 密集 型 服务 器 系统 中 sar 的 运行 结果 。 


% Sar 
Linux 2.6.19.2-103.hatena.centos5 (jubuichi.hatena.ne.jp) 
02/08/08 


:01 CPU %user %nice %system  %iowait %steal 


:O01 all 59.84 i 1 .00 
:02 all 48 .72 ， .O00 
all 54.91 y ; .00 
all 66.39 5 .00 


all 57.47 E l .O00 


图 4.1.5 ”sar 的 运行 实例 (计算 密集 型 服务 器 系统 ) 


详细 的 用 法 我 们 稍 后 再 做 讲述 。sar 优 于 其 他 工具 的 一 点 是 ， 可 以 随 着 时 
间 的 流逝 来 浏览 并 比较 负载 指标 。 例 如 在 上 述 00:00~00:40 时 间 段 中 ，CPU 
使 用 率 的 变迁 就 可 以 通过 sar 来 确认 。"“%user" 是 用 户 程序 的 CPU 使 用 

率 ,，“9%system” 是 系统 所 占用 的 CPU 使 用 率 。 当 load average 较 高 且 这 些 
CPU 使 用 率 的 数值 也 同样 较 高 的 情况 下 ， 就 可 以 断定 造成 等 得 进程 负载 的 
原因 是 CPU 资源 不 足 。 


CPU 的 用 户 模 式 和 系统 模式 
CPU 的 用 户 模 式 和 系统 模式 分 别 是 : 
。 模式 : 用户 程序 运作 时 的 CPU 模式 ， 也 就 是 一 般 的 应 用 软件 运作 
工 


。 系统 模式 ， 系统 程序 即 内 核 运作 时 的 CPU 模式 
用 户 及 系统 占用 CPU 资源 是 分 开 来 表述 的 。 


通常 在 应 用 程序 的 CPU 负载 较为 严峻 的 情况 下 ， 用 户 模 式 的 CPU 使 用 率 
会 变 高 。 也 就 是 说 ， 用 户 应 用 程序 处 于 正在 进行 计算 的 状态 。 另 一 方面 ， 
例如 运行 大 量 进程 和 线程 时 ， 进 程 及 线程 的 切换 次 数 较 多 ， 或 者 系统 调用 
较为 频繁 时 ， 系 统 模 式 的 CPU 使 用 率 会 变 高 。 


用 户 模 式 及 系统 模式 的 CPU 占用 行为 的 不 同 如 图 4.1.6 所 示 。 


Wb 
sw 本 
和 ae 
Vo 号 -” 
* se “” 


系统 模式 ““ 

图 4.1.6 ”CPU 时间 的 不 同 

正如 本 章 开 头 叙 述 的 那样 ， 多 任务 的 实现 方式 就 是 内 核 在 短 时 间 内 切换 进 
程 。 也 就 是 说 ， 在 切换 进程 时 ， 内 核 必 定 处 于 运作 状态 。 这 时 如 果 系 统 发 
生 调 用 ， 运 行 状 态 就 会 从 用 户 程序 变迁 到 内 核 。 

LO 密集 型 服务 器 的 sar 


接 下 来 是 IO 密集 型 服务 器 中 的 sar 的 结果 (图 4.1.7) 。 


Sm 


Linux 2.6.18-8.1.8.el5 (takehira.hatena.ne.jp) 02/08/08 
:01 CPU %user %nice %%system %iowait  %steal 

:01 all 。 5 17 .22 22.88 

:01 all 有 Y 16.00 22.84 

all 有 i 19 .66 18 .99 


all ' 1 5 13.09 


all ， 19.45 


图 4.1.7 sar 的 运行 实例 (LO 密集 型 服务 器 ) 


“9%iowait” 是 IO 等 待 率 。load average 较 高 且 该 值 较 高 时 ， 可 以 判断 是 由 于 
IO 瓶颈 所 造成 的 负载 状况 。 


查 明 了 具体 是 WO 的 原因 还 是 CPU 的 原因 后 ， 就 可 以 通过 其 他 指标 来 进行 
更 加 详细 的 调查 ， 例 如 参考 内 存 使 用 率 和 SWAP 交换 区 的 发 生 情 况 等 。 


像 这 样 ， 在 辨别 瓶颈 时 ， 从 load average 等 总 括 性 的 数据 着 手 ， 参 考 CPU 
使 用 率 和 IO 等 待 时 间 等 具体 的 数字 ， 从 而 自 顶 向 下 地 快速 排查 各 进程 状态 
是 非常 有 效 的 策略 。 而 具体 以 怎样 的 顺序 执行 这 些 方针 呢 ? 是 
当下 内 核 的 行为 ， 2 算 方 法 来 决定 。 
是 那 句 话 ， 要 想 查 看 人 负载， 必须 清楚 内 核 运作 的 情况 。 


4.1.7 多 核 CPU 与 CPU 使 用 率 


近来 的 基于 x86 的 CPU 正在 向 多 核心 (Multi-Core) 结构 发 展 。 在 多 核 
CPU 中 ， 即 便 只 有 单个 物理 的 CPU， 在 系统 看 来 也 好 像 安 装 了 多 个 CPU 一 
， 内 核 中 ，CPU 使 用 率 统 计 了 各 个 CPU 核心 的 详情 。 下 面 我 们 就 

S 丰 l = o 


利用 sar 工具 的 -P 选项 。 图 4.1.8 是 安装 了 四 核 CPU 的 (Quad-Core 
CPU) 服务 器 中 sar 的 结果 。 


者 


% sar -P ALL | head -13 
Linux 2.6.19.2-103.hatena.centos5 (jubuichi.hatena.ne.jp) 
02/08/08 


00:00:01 CPU %user %nice %system %iowait %steal 
%idle 
00:10:01 all 59 .84 0.00 1.54 0.00 0.00 
38 .62 
00:10:01 0 68 .10 0.00 3.71 0.00 0.00 
28 .19 
00:10:01 1 52.82 0.00 0.81 0.00 0.00 
46 .37 
00:10:01 2 53.52 0.00 0.76 0.00 0.00 
45 .72 
00:10:01 3 64.94 0.00 0.88 0.00 0.00 
34 .18 
00:20:02 all 48 .72 0.00 1.48 0.00 0.00 
49 .80 
00:20:02 0 62.81 0.00 3.59 0.01 0.00 
33 .59 
00:20:02 1 39.11 0.00 0.81 0.01 0.00 


图 4.1.8 sar -P 的 运行 实例 (计算 密集 型 服务 器 ， 安 装 了 多 核心 的 CPU) 


各 CPU (各 核心 ) 都 附带 有 CPU ID 号 码 ， 在 输出 的 CPU 信息 中 可 以 通过 
此 号 码 进 行 确 认 ， 以 得 到 每 个 CPU 的 使 用 率 情 况 。 


这 是 计算 密集 型 服务 器 的 情况 ， 下 面 再 来 看 看 在 IO 密集 型 服务 器 中 的 结 
果 。 首 先 不 使 用 -P 选项 ， 只 查看 统计 结果 (图 4.1.9) 。 


% sar | head 
Linux 2.6.18-8.1.8.el5 (takehira.hatena.ne.jp) 02/08/08 


00:00:01 CPU %user %nice %system  %iowait %steal 
%idle 
00:10:01 all 0 ,14 0.00 17.22 22.88 0.00 
59.76 
00:20:01 all 0.15 ©0.00 16.00 22.84 0.00 
61 .01 
00:30:01 all 0.16 0.00 19 .66 18 .99 0.00 
61.19 


图 4.1.9 sar 的 运行 实例 (VO 密集 型 的 服务 器 ， 安 装 了 多 核心 的 CPU) 


可 以 看 出 IO 等 待 (%iowait 栏 ) 平均 为 20% 左右 。 该 服务 器 使 用 了 双核 心 
的 CPU (Dual Core CPU) ， 可 以 通过 sar -P 查看 各 CPU 及 整个 CPU 的 
IO 等 待 情况 (图 4.1.10) 。 


% sar -P ALL | head 
Linux 2.6.18-8.1.8.el5 (takehira.hatena.ne.jp) 02/08/08 


00:00:01 CPU %user %nice %system  %iowait %steal 
%idle 
00:10:01 all 0 ,14 0.00 17 .22 22.88 0.00 
59.76 
00:10:01 0 0.28 ©0.00 34.04 45.58 0.00 
20 .10 
00:10:01 1 0.00 0.00 0 .40 0.18 0.00 


00:20:01 0 0.30 0.00 31.61 45.58 0.00 
22 .51 
00:20:01 1 0.00 0.00 0.38 ©0.11 0.00 
99 .50 


sar -P 的 运行 实例 (1/O 密集 型 的 服务 器 ， 安 装 了 多 核心 的 
CPU 


结果 有 点 儿 意 外 。LIO 等 待 大 体 上 只 是 在 CPU 0 发 生 着 ，CPU 1 则 几乎 没有 
工作 。 


在 安装 了 多 核心 的 CPU 且 只 存在 一 个 磁盘 时 ， 单 位 核心 的 CPU 负载 可 以 
分 流 到 其 他 的 CPU 核心 ， 但 IO 负载 却 不 能 进行 分 流 ， 因 此 sar 的 输出 结 
果 束 会 出 现 偏 差 。 虽 然 IO 等 竺 平均 为 20% 左右 ， 并 不 是 太 高 ， 但 可 能 会 
造成 整个 CPU 的 IO 等 行 数值 产生 明显 偏 关 。 因 此 在 安装 多 核 处 理 器 的 环 
境 中 ， 根 据 情况 还 需要 查看 CPU 中 每 个 核心 的 使 用 率 情况 。 


4.1.8 ”如 何 计算 CPU 的 使 用 率 

与 load average 相同 ， 了 解 CPU 使 用 率 的 具体 计算 方法 ， 对 分 析 sar 和 
top 命令 的 输出 结果 是 很 有 帮助 的 。 此 外 也 能 更 清楚 地 了 解 所 输出 的 多 核 
CPU 占用 率 各 项 数值 的 意义 。 


得 出 CPU 使 用 率 的 步 又 与 load average 类 似 ， 即 通过 计时 右 中 断 在 内 核 中 
人 


人 的 中 断 信 号 存在 差异 ， 但 两 者 所 使 用 的 信号 都 是 硬件 以 一 定 的 周期 发 出 


load average 是 计算 CPU 相关 运行 队列 中 正在 保持 的 进程 描述 符 的 数量 。 
load average 的 数值 存放 在 内 核 的 全 局 数组 中 。 


而 CPU 使 用 率 的 运算 则 有 些许 不 同 。CPU 使 用 率 的 计算 结果 不 是 放置 到 全 
局 数组 中 ， 而 是 在 为 每 个 CPU 所 准备 的 专门 区 域 中 进行 存放 “4。 正 因为 为 
每 个 CPU 划分 了 专门 的 区 域 存 放 数 据 ， 因 此 在 sar 中 才 可 以 获得 每 个 CPU 
的 具体 信息 。 


4 具体 是 在 内 核 中 的 cpu_usage_stat 结构 体 中 实现 的 。 


为 了 完成 进程 的 切换 工作 ， 内 核 会 在 各 进程 生成 之 后 记录 进程 所 使 用 的 
CPU 时 间 ， 这 通常 被 称 为 “进程 记 账 ”(Process Accounting) 。 根 据 该 进程 
记 账 获得 的 记录 ， 调 度 器 可 以 相应 地 降低 CPU 占用 时 间 过 长 的 进程 的 优先 
级 ， 或 者 在 该 进程 进行 一 定 的 计算 后 ， 将 CPU 主流 给 其 他 的 进程 。 


通过 统计 各 进程 的 CPU 使 用 时 间 ， 可 以 了 解 CPU 被 占用 的 情况 。 将 其 换 
算 为 单位 时 间 的 计算 结果 ， 就 可 以 得 出 CPU 使 用 率 。 


这 里 有 如 下 两 处 关键 点 : 
。 load average 是 系统 全 局 的 计算 结果 


。 I 率 和 I/O 等 待 时 间 是 根据 类 型 及 具体 使 用 的 CPU 来 保存 的 计 


据 此 整 可 以 弄 清 苞 两 个 指标 的 差异 : 
。 load average 是 整个 系统 的 负载 的 指标 ， 不 能 进行 详细 的 分 析 


。 CPU 使 用 率 和 IO 等 待 时 间 既 可 以 作为 整体 的 统计 报告 来 看 ， 也 可 以 
作为 具体 的 指标 来 看 


4.1.9 ”进程 记 账 的 内 核 编码 
在 了 解 了 进程 记 账 的 概要 之 后 ， 为 了 能 更 确切 地 理解 ， 还 需要 查看 进程 记 


账 的 实际 编码 。 首 先 ， 查 看 include/linux/kernel_stat.h 中 定义 的 
cpu_usage_stat 结构 体 和 kernel_stat 结构 体 。 


struct cpu_usage_ stat 


{ 


cputime64_t user; 
cputime64_t nice; 
cputime64_t System， 
cputime64_t softirq; 
cputime64 t irq; 
cputime64_t idle; 
cputime64_t iowait; 
cputime64_t steal; 
}; 


struct kernel stat 


struct cpu_usage_stat cpustat,; 


unsigned int irqs[NR_IRQS]; 


}; 
DECLARE_PER_CPU(struct kernel stat, kstat); 


该 结构 中 记录 并 保存 了 计算 得 出 的 CPU 使 用 时 间 等 数据 。 


请 看 cpu_usage_stat 结构 体 ， 可 以 发 现 ，sar 所 输出 的 项 目 ， 如 user、 
system 、iowait 等 成 员 都 可 以 在 该 结构 体 中 确认 。kernel_stat 结构 体 中 包含 
了 cpu_usage_stat 结构 体 ， 另 外 在 kernel_stat 结构 体 中 还 使 用 了 
DECLARE_PER_CPU( 宏 声 明了 每 个 CPU 。 


进程 记 账 的 实际 处 理 是 在 kernel/timer.c 的 update_process_times() 函数 中 定 
义 的 。 每 当 计 时 需 中 断 时 ， 该 函数 都 会 被 调用 。 在 update_process_times() 
内 ， 可 以 判断 从 之 前 的 进程 记 账 处 理 开 始 到 现在 这 段 时 间 内 当前 进程 的 行 
为 ， 并 更 新 统计 信息 。 


void update_process_times 
(int user_tick) 


Struct task_struct *p = current,; 
int cpu = smp_processor_id(); 


/* Note: this timer irq context must be accounted for as well. */ 
If (user_tick) 

account_user_time(p, jiffies_ to cputime(1)); 
else 

account_system time(p, HARDIRQ OFFSET, jiffies_ to_cputime(1)); 


省 略 > 


首先 ， 通 过 current 安 来 获取 当前 进程 的 进程 描述 符 。 然 后 根据 user_ tick 的 
ed 分 支 。user_tick 会 判断 最 这 的 时 间 具 体 是 用 户 时 间 壕 是 系统 时 
四 


如 果 是 用 户 时 间 ， 则 调用 account_user_time() 函数 ， 否 则 则 调用 
account_system_time() 函数 。 以 下 来 看 看 account_user_time() 的 实现 机 制 。 


void account user_ time 


(Struct task_struct *p, cputime_t cputime) 


struct cpu_usage_Sstat *cpustat = &kstat_this_cpu.cpustat,; 
cputime64 t tmp; 


p->utime = cputime_add(p->utime, cputime); 


/* Add user time to cpustat. */ 
tmp = cputime_to_cputime64(cputime); 
if (TASK_NICE(p) > 0) 
cpustat->nice = cputime64 add(cpustat->nice, tmp); 
else 
cpustat->user = cputime64 add(cpustat->user, tmp); 


过 参数 传递 的 “p” 古 当前 进程 的 进程 描述 符 。 


首先 ， 获 取 运 行 中 的 CPU 所 用 的 cpustat 结构 体 。 接 着 ， 使 用 cputime_add 
宏 更 狐 当 前 进程 的 utime 成 员 。 这 样 一 来 ， 该 进程 在 用 户 模式 所 消耗 的 
CPU 时 间 的 数值 就 完成 了 更 新 。 然 后 ， 针 对 cpustat 结构 体 的 nice 或 user 数 
值 ， 使 用 cputime64_add 宏 以 同样 的 方式 算出 经 过 时 间 。 


另外 ，account_system_timeg0 是 如 何 实现 的 呢 ? 


void account_system time(struct task_struct *p, int hardirq_offset, 
cputime_t cputime) 
{ 
struct cpu_usage_ stat *cpustat = &kstat_this_cpu.cpustat; 
struct rq *rq = this_rq(); 
cputime64 t tmp; 


p->stime = cputime_add(p->stime, cputime); 


/* Add system time to cpustat. */ 
tmp = cputime_to_cputime64(cputime); 
if (hardirq_ count() - hardirq_offset) 

cpustat->irq = cputime64_add(cpustat->irq, tmp); 
else if (softirq_count()) 

cpustat->softirq = cputime64_add(cpustat->softirq, tmp); 
else if (p != rq->idle) 

cpustat->system = cputime64_add(cpustat->system, tmp); 
else if (atomic_read(&rq->nr_iowait) > 0) 

cpustat->iowait = cputime64_add(cpustat->iowait, tmp); 
else 

cpustat->idle = cputime64 add(cpustat->idle, tmp); 
/* Account for System time used */ 
acct_update_integrals(p); 


虽然 这 里 也 以 同样 的 方式 进行 了 处 理 ， 但 是 之 前 的 update_process_times() 
函数 中 所 描述 的 “如 果 用 户 模式 不 工作 则 系统 模式 工作 ”只 是 一 个 比较 粗略 
的 条 件 分 文 。 实 际 上 当 用 户 模式 不 工作 时 ， 还 存在 什么 都 没 做 的 idle 状 


要 深入 了 解 cpu_usage_stat 结构 。 


* * * 


虽然 稍微 有 些 复杂 ， 不 过 我 们 还 是 了 解 了 CPU 使 用 率 统计 的 更 新 机 制 。 这 
样 一 来 ， 我 们 便 能 清楚 地 掌握 sar 及 top 命令 中 所 罗列 的 各 个 指标 具体 是 
表示 什么 的 了 


4.1.10 ”线程 和 进程 
虽然 稍微 有 些 离 题 ， 但 还 是 有 必要 稍微 了 解 一 下 进程 和 线程 。 
通 稼 情况 下 ， 线 程 是 比 进程 还 要 小 的 运行 单位 。 在 进程 中 通常 能 够 使 多 个 
线程 同时 运作 ， 这 束 叫 做 多 线程 。 若 要 在 一 个 程序 中 同时 并 行 多 个 处 理 ， 
可 以 采用 以 下 方式 ?: 
5 也 有 在 单位 线程 中 通过 事件 驱动 (Event Driven) 进行 处 理 的 方法 。 

。 通过 生成 多 个 进程 确保 多 个 环境 的 运行 (多 进程 ) 

。 通 过 生成 多 个 线程 确保 多 个 环境 的 运行 〈-~ 多 进程 ) 
MySQL 是 利用 多 线程 来 处 理 客户 端的 请 求 。Apache 中 若 将 MPM 选项 设 
为 “prefork”， 束 可 以 实现 多 进程 ， 若 选择 “worker”"， 则 可 以 实现 多 进程 + 多 
线程 的 运作 。 
多 进程 (图 4.1.11) 和 多 线程 (图 4.1.12) 存在 根本 性 的 不 同 : 前 者 拥有 属 
于 自己 独立 的 内 存 空 间 ; 后 者 则 是 共享 的 内 存 空 间 。 因 此 后 者 具有 更 经 济 


的 内 存 请 耗 ， 而 且 在 进程 切换 时 不 发 生 内 存 空间 置换 ， 运 算 成 本 相对 较 
低 。 需 要 大 量 运 行 环境 的 程序 ， 采 用 多 线程 比较 有 利 。 


号] 


虚拟 地 址 空间 


do_ hoge::i do_ hoge::i 
do_ hoge::] do_ hoge:’] 


maint( } main( } 
do_ hogel } do_ hoget{} 


do_ fuga( } do_ fugal } 


ES 
图 4.1.11 多 进程 (内 存 空间 不 同 。 复 制 ) * 
※ SP: 栈 指针 ;，PC: 程序 计数 器 。 


虚拟 地 址 空间 


进程 2 


do_ hoge:: 
do_ hoge::] 


进程 1 


~ maint{ ) 
Ndo_ hoge!{ ) 
do_ fugat ) 


图 4.1.12 线程 (内存 空间 相同 ) 
内 核 中 的 进程 和 线程 
但 是 以 上 只 是 从 用 户 角 度 来 看 进程 和 线程 的 差异 。 


而 在 内 核 内 部 ， 进 程 和 线程 的 处 理 方式 则 大 致 相同 。 针 对 一 个 线程 分 配 一 
个 进程 描述 符 ， 进 程 和 线程 用 完全 一 样 的 逻辑 调度 。 因 此 ， 在 运作 多 线程 
应 用 程序 时 ， 人 负载 计算 的 方式 也 不 会 发 生 什么 改变 。 


顺带 一 提 ， 线 程 在 内 核 中 有 时 被 称 为 LWP=Light Weight Process ， 即 轻 量 
进程 。 


ps 和 线程 

对 内 核 来 说 ， 进 程 和 线程 基本 相同 。 但 是 从 用 户 的 角度 来 看 ， 线 程 则 是 在 
进程 中 运行 的 运行 环境 。 和 总之， 线程 是 比 进程 更 小 的 概念 ， 进 程 包含 线 
程 。 在 通过 ps 浏览 多 线程 的 全 部 线程 时 ， 需 要 相关 的 选项 。 


例如 在 查看 mysqld 的 进程 时 ， 只 能 看 到 如 图 4.1.13 所 示 的 两 个 进程 。 这 里 
如 图 4.1.14 那样 给 ps 增加 -L 选项 。 


% ps -elf | egrep (CMD|mysql) 

F S UID PID PPID C PRI NI ADDR SZ WCHAN STIME TTY 
TIME CMD 

4S root 3297 1 © 81 0 - 13260 wait Jan25 ? 
00:00:00 /bin/sh /usr/bin/mysqld_safe 


4 S mysql 3329 3297 99 75 © - 100738 stext Jan25 ? 
19-05:11:32 /usr/libexec/mysqld 


Wt ht 


图 4.1.13 ”ps 的 运行 实例 


% ps -elf -L | egrep (CMD|mysql) | head 
F S UID PID 


PPID LWP 
C NLWP 


PRI NI ADDR SZ WCHAN STIME TTY 
TIME CMD 
4S root 3297 1 3297 0 1 81 0 - 13260 wait Jan25 ? 
00:00:00 /bin/sh /usr/bin/mysqld_safe 
4 S mysql 3329 


3297 3329 0 37 
75 0 - 101251 - Jan25 ? 


00:11:23 /usr/libexec/mysqld 
1 S mysql 3329 


3297 3332 0 37 

75 0 - 101251 - Jan25 ? 
00:03:44 /usr/libexec/mysqld 
1 S mysql 3329 

3297 3333 0 37 

75 0 - 101251 - Jan25 ? 
00:03:44 /usr/libexec/mysqld 
1 S mysql 3329 

3297 3334 0 37 

75 0 - 101251 - Jan25 ? 
01:00:09 /usr/libexec/mysqld 
1 S mysql 3329 


3297 3335 0 37 


80 0 - 101251 - Jan25 ? 
00:00:00 /usr/libexec/mysqld 
< 以 下 省 略 > 


图 4.1.14 ”使 用 -L 选项 显示 单位 进程 的 所 有 线程 


这 样 一 来 就 多 出 了 几 行 输出 的 内 容 ， 在 此 多 出 的 部 分 就 是 线程 。 请 注意 
Header 的 “PID” 和 “LWP” 列 。PID 是 进程 ID， 但 是 mysqld 的 进程 ID 完全 相 
同 。 男 一 方面 ，LWP 是 线程 ID。 从 进程 ID 相同 但 线程 ID 不 同 可 以 得 出 ， 
这 些 线程 是 在 同一 进程 内 被 建立 的 多 个 线程 。 


“NLWP” (Number of LWPs) 是 线程 个 数 。 在 此 可 以 看 出 ，mysqld_safe 只 
有 一 个 线程 ， 也 就 是 其 自身 ， 而 mysqld 线程 却 被 生成 了 37 个 。 


LinuxThreads 和 NPTL 


由 于 历史 原因 ，Linux 中 有 多 个 实现 多 线程 的 机 制 。 虽 然 目前 统一 为 
了 “NPTL” (Native POSIX Thread Library) ， 但 是 稍 旧 的 发 行 版 还 有 可 能 采 
用 的 是 “LinuxThreads” 实 现 机 制 。 


LinuxThreads 和 NPTL 几乎 没有 什么 区 别 ， 但 是 在 使 用 ps 查看 时 ， 
LinuxThreads 的 显示 和 进程 几乎 相同 。 在 NPTL 中 不 使 用 -L 选项 就 不 能 确 
认 线 程 ， 而 使 用 LinuxThreads 束 算 不 添加 -L 选项 也 能 确认 线程 ， 请 注意 不 
要 混 消 。 


4.1.11 ps、sar、vVmstat 的 使 用 方法 


下 面 我 们 回 到 正题 。 在 此 之 前 我 们 了 解 了 : 
。 负载 监控 的 基本 策略 
。 load average 的 计算 过 程 
。 CPU 使 用 率 的 计算 过 程 


理解 了 上 面 的 内 容 ， 就 可 以 明日 各 命 令 工具 输出 的 各 项 指标 。 下 
知识 ， 下 文 将 深入 介绍 ps 、sar 、vmstat 冬 0 
De 输出 进程 信息 

ps (Report Process Status) 是 输出 进程 信 ， 旦 的 软件 。 是 从 用 户 空间 调用 内 核 
中 所 保持 的 进程 描述 符 中 存储 信息 的 工具 

让 我 们 来 看 一 下 ps auxw 命令 输出 的 信息 (图 4.1.15) ， 下 面 是 其 中 主要 


的 几 列 。 
。 %CPU : 运行 ps 命令 时 该 进程 的 CPU 使 用 率 
。 %MEM : 以 百分比 表示 进程 的 物理 内 存 消耗 程度 


。VSZ、RSS : 分 别 是 该 进程 所 确保 的 虚拟 内 存 区 域 的 大 小 及 物理 内 在 


区 域 的 大 小 详情 见 后 ) 


。 STAT : 像 之 前 介绍 的 那样 ， 该 项 目 显示 了 进程 的 状态 。 是 非常 重要 的 
项 目 

。TIME : 表示 CPU 占用 时 间 的 项 目 (详情 见 后 ) 
% ps auxw 
USER PID %CPU %MEM VSZ RSS TTY STAT START TIME 
COMMAND 
root 1 0.0 0.0 1944 656 ? Ss Feb05 0:00 init 
[2] 
root 2 0.0 0.0 0 0 2? S< Feb05 0:00 
[kthreadd] 
root 3 0.0 0.0 0 0 2? SN Feb05 0:00 
Sil 
root 0.0 0.0 0 0 2? S< Feb05 0:00 
[events/0] 
root 5 0.0 0.0 0 0 2? S< Feb05 0:00 
[khelper] 
root 17 0.0 0.0 © 0 2? S< Feb05 0:00 


[kblockd/0] 

root 18 0.0 0.0 0 0 2? S< Feb05 0:00 
[kseriod] 

root 34 0.0 0.0 0 0 2? S Feb05 0:00 
[pdflush] 

root 35 0.0 0.0 0 0 2? S Feb05 0:07 
[pdflush] 

root 36 0.0 0.0 0 0 2? S< Feb05 0:01 
[kswapd0] 

root 37 0.0 0.0 0 0 2? S< Feb05 0:00 
[aio/0] 

root 786 0.0 0.0 0 0 2? S< Feb05 0:03 
[kjournald] 

root 982 0.0 0.0 0 0 2? S< Feb05 0:10 
[kjournald] 

root 983 0.0 0.0 0 0 2? S< Feb05 0:01 
[kjournald] 

root 1218 0.0 0.0 1628 616 ? SS Feb05 0:00 
/sbin/syslogd 

root 1224 0.0 0.0 1576 380 ? Ss Feb05 0:00 
/sbin/klogd -x 


图 4.1.15 确认 ps auxw 的 输出 
VSZ 与 RSS...... 虚拟 内 存 和 物理 内 存 的 指标 


VSZ (Virtual Set Size) 是 为 了 支持 进程 的 正常 运作 所 设置 的 虚拟 内 存 区 域 
的 大 小 ，RSS (Resident Set Size) 是 物理 内 存 区 域 的 大 小 ， 但 这 里 为 什么 会 
出 现 两 个 内 存 的 指标 呢 ? 


不 仅 是 Linux， 多 任务 操作 系统 的 一 个 重要 功 角 能 就 是 存在 虚拟 内 存 的 结构 ， 。 
所 谓 “ 庶 拟 内 存 ”(Virtual Memory) ， 是 指 当 程序 需要 使 用 内 存 时 ， 并 不 是 
[ 接 让 物理 内 存 介 入 处 理 ， 而 是 让 物理 内 存 通 过 软件 抽象 层 ， 实 现 被 称 
为 “页 面 文件 ” Ce 也 称 虚 拟 内 存 ) 的 虚拟 内 存 结构 ， 系 统 将 对 该 虚拟 
内 存 区 域 进行 相应 的 管理 。 


一 些 进程 需要 确保 足 量 的 内 存 空间 才能 正常 工作 ， 但 由 于 多 任务 系统 保护 
的 关系 ， 用 户 进程 无 法 直接 访问 硬件 ， 于 是 便 和 暂时 将 处 理 中 断 ， 并 委托 内 
核 来 确保 内 存 。 


虽然 内 核 必 须 确 保 对 进程 内 存 的 分 配 ， 但 这 里 并 非 交 付 真 实 的 物理 内 存 区 
域 的 地 址 ， 而 是 交付 虚拟 内 存 的 地 址 。 进 程 把 从 内 核 返 回 的 虚拟 内 存 的 地 
址 当成 真实 地 址 ， 然 后 重新 开始 处 理 。 


这 里 需要 留意 的 是 ， 内 核 为 进程 返回 的 虚拟 内 存 地 址 ， 事 实 上 此 时 还 未 与 
物理 内 存 建立 起 实质 的 联系 ， 也 束 古 说 可 以 认为 在 硬件 上 还 没有 划 出 实际 
的 内 存 区 域 。 直 到 进程 对 通过 内 核 得 到 的 虚拟 内 存 区 域 进行 写 入 时 ， 对 物 
理 内 存 区 域 的 关联 操作 才 开 始 进行 (图 4.1.16) 。 可 以 说 内 核 用 虚拟 内 存 这 
个 中 间 的 抽象 层 (善意 地 ) 欺骗 了 进程 。 


交付 应 所 内 存 
只 在 必要 的 时 候 
才 映射 到 物理 内 
存 上 


图 4.1.16 ”虚拟 内 存 


使 用 虚拟 内 存 结构 能 获得 很 大 的 便利 ， 这 也 古文 返 多 任务 操作 系统 的 一 项 
重要 功能 。 以 下 列举 几 点 : 


。 通过 使 用 虚拟 内 存 可 以 欺骗 进程 ， 造 成 可 以 处 理 超出 物理 内 存 容 量 的 
更 大 内 存 空间 的 假象 


。 使 物理 存储 器 上 零乱 的 内 存 空 间 看 起 来 像 是 一 个 连续 的 内 存 空间 
。 使 进程 认为 每 个 进程 都 拥有 独立 的 内 存 空间 


。 当 物理 内 存 不 足 时 ， 长 时 间 没 被 使 用 的 虚拟 内 存 空间 将 解除 与 物理 内 
I 被 解除 映射 的 数据 将 二 次 存放 在 存储 装置 (磁盘 等 ) 
yi 这 通常 被 称 为 “ 交 

” (SWAP 


。 在 不 同 的 两 个 进程 上 ， 所 使 用 的 虚拟 内 存 空间 也 不 同 ， 通 过 将 这 两 个 
虚拟 内 存 空间 映射 到 同一 个 物理 内 存 空间 ， 就 可 以 在 两 个 进程 间 共 享 
内 存 。IPC® 共享 内 存 等 就 是 通过 这 种 方式 实现 的 


5 Inter Process Communication 的 缩写 ， 即 进程 之 间 的 通信 (功能 ) 。 


VSZ 及 RSS 分 别 会 苯 出 庶 拟 内 存 空间 及 物理 内 存 衬 间 的 大 小 。 当 频 迷 访问 
交换 区 时 ， 通 常 可 以 判断 出 此 时 的 物理 内 存 空间 经 不 是 以 全 用 ， 因此 和 需 

要 时 长 留意 RSS 的 大 小 ， 针 对 占用 RSS 较 大 的 进程 查找 问题 根源 以 及 时 解 
决 ， 或 者 扩充 物理 内 存 的 容量 以 解决 潜在 的 负载 问题 。 


TIME ...... CPU 占用 时 间 


TIME 征 和 表示 时 间 的 指标 ， 在 这 里 指 的 是 进程 实际 所 后 用 的 CPU 时 长 。 请 
注意 这 里 不 是 生成 进程 后 经 过 的 时 长 。 


进程 实际 使 用 的 CPU 时 间 指 的 是 什么 呢 ? 相信 你 已 经 注意 到 了 ! 通过 查看 

之 前 进程 记 账 中 的 处 理 详情 ， 就 可 以 看 到 进程 描述 符 中 记录 的 CPU 使 用 时 

I 例如 ， 当 系统 CPU 负载 较 高 时 ， 通 过 查看 ps 的 TIME 项， 就 可 以 分 
清 具 体 是 哪个 进程 CPU 占用 了 较 多 资源 。 


通过 ps 命令 查看 Blocking 和 Busy Loop 的 差异 


这 里 为 了 加 深 对 CPU 时 间 的 理解 ， 我 们 试 奢 做 一 个 实验 。 甫 先 尝试 运行 两 
个 无 限 循环 的 Ruby 脚本 ， 然 后 在 ps 中 确认 该 进程 的 行为 。 第 一 个 脚本 是 
如 代码 清单 4.1.1 所 示 的 只 执行 加 法 的 脚本 (busy_loop.mb) 。 运 行 一 会 儿 该 脚 
本 后 再 看 看 ps 输出 的 结果 (图 4.1.17) 7 。 


“选项 没有 使 用 BSD 形式 的 auxw， 而 是 使 用 了 SysV 形式 的 -全 ， 虽 然 输出 与 先前 介绍 的 稍 有 不 
同 ， 但 是 可 以 看 出 信息 并 没有 很 大 差异 。 


代码 清单 4.1.1 busy_loop.rb 


#!/usr/bin/env ruby 


主 -号 -者 
while true 
i += 1 

end 


% 
F 


S -fl -C ruby 


p 
S 


UID PID C TIME 


naoya 10640 69 00:00:23 


ruby busy_loop.rb 


图 4.1.17 ps 的 运行 实例 (busy_loop.rb， 省 略 了 部 分 列 ) 


这 里 希望 大 家 注意 的 是 表示 状态 的 “S” 列 和 “TIME” 列 。 代 码 清单 4.1.1 的 脚 
本 只 在 CPU 上 进行 无 限 循 环 的 加 法 运算 ， 没 有 进入 事件 等 待 的 处 理 ， 因 而 
在 “S” 列 中 ， 可 以 看 出 该 进程 恒 常 显示 为 <R”， 即 “TASK_RUNNING” 状 态 。 
因为 CPU 一 直 被 消耗 ， 所 以 TIME 即 CPU 的 占用 时 间 会 随 着 时 间 的 流逝 而 
增加 。 此 类 无 限 循环 的 CPU 计算 处 理 被 称 为 Busy Loop 。 


男 一 方面 ， 代 码 清音 4.1.2 进行 了 什么 样 的 行为 呢 ? 其 实 该 脚本 下 是 读 取 用 
户 在 键盘 输入 的 内 容 的 脚本 (blocking.rb) 。ps 的 结果 如 图 4.1.18 所 示 。 


代码 清单 4.1.2 blocking.rb 


#1!/usr/bin/env ruby 


while true 
puts gets 
end 


% ps -fl -C ruby 
F S UID PID C TIME CMD 
0 S naoya 10753 0 00:00:00 ruby blocking.rb 


图 4.1.18 ”ps 的 运行 实例 (blocking.rb ， 省 略 了 部 分 列 ) 


由 于 等 待 键盘 输入 ， 该 进程 被 Block， 因 此 状态 是 “$”， 也 就 
是 “TASK_INTERRUPTIBLE”。 还 有 ， 该 进程 只 要 变 为 待机 状态 ， 束 不 占用 
CPU 时 间 。 因 此 即使 等 竺 再 长 时 间 ，TIME 的 数值 也 不 可 能 增加 。 


同样 是 无 限 循 环 ，Busy Loop 的 脚本 和 被 Block 的 脚本 的 运作 方式 却 存在 很 
大 差异 ， 这 通过 ps 命令 所 呈现 的 项 目 也 可 以 看 出 。 若 能 清楚 地 了 解 进 程 的 
状态 变迁 和 CPU 占用 时 间 的 计算 机 制 ， 就 能 胸有成竹 地 辕 读 ps 中 各 个 列 
的 项 目 了 。 


sar .……. 查 看 系统 报告 的 各 项 指标 


可 以 查看 系统 报告 的 各 种 指标 的 工具 有 很 多 ， 其 中 通用 又 方便 的 是 sar 
(System Activity Reporter) 。 


sar 是 存在 于 sysstat 软件 包 中 的 指令 ， 有 两 个 用 法 : 

。 追溯 访问 过 去 的 统计 数据 (默认 ) 

。 周期 性 地 确认 当前 数据 
在 sar 中 ， 运 行 了 sadc 的 后 台 程 序 。 若 安装 了 sysstat 软件 包 ，sadc 驶 能 目 
动 从 内 核 收 集 报告 进行 存储 。 如 前 所 述 ， 如 果 不 附 加 任何 选项 直接 运行 
sar 指令 的 话 ， 束 可 以 参考 sadc 所 收集 的 过 去 的 CPU 使 用 率 的 统计 数据 。 


默认 显示 从 最 近 的 0:00 开始 的 数据 。 想 查阅 昨天 以 前 的 报告 时 ， 可 以 像 图 
4.1.19 那样 用 -f 选项 指定 /var/log/sa 目录 下 保存 的 日 志文 件 。 


% sar -f /var/log/sa/sa04 | head 
Linux 2.6.19.2-103.hatena.centos5 (goka.hatena.ne.jp) 02/04/08 


00:00:01 CPU  %user %nice %system  %iowait %steal 
%idle 
00:10:01 all 3.21 0.00 2.51 2.16 0.00 
92 .12 
00:20:01 all 3.10 0.00 2.48 2.04 0.00 
92 .38 
00:30:01 all 3.01 0.00 2.34 1.94 0.00 
92.71 
00:40:02 all 2.92 0.00 2.29 1.95 0.00 
92.84 


图 4.1.19 sar -f 的 运行 实例 
查阅 过 去 的 数据 的 功能 非常 重要 。 例 如 在 发 生 故 障 等 情况 下 ， 为 了 探寻 故 


障 的 原因 ， 故 障 发 生前 后 的 数据 束 很 有 价值 。 男 外 还 能 通过 sar 的 数据 来 
比较 更 换 程序 前 后 的 性 能 变化 ， 以 确认 此 次 程序 部 署 是 否 存 在 价值 。 


如 采 不 查看 过 去 的 数据 ， 而 是 查看 当前 数据 ， 可 以 使 用 类 似 sar 1 1000 
这 样 的 参数 格式 。“1 1009 ”是 “每 阳 1 秒 采样 一 次 ， 连 续 采 样 1000 次 ”的 


O 
司 、, 必 AN 


如 图 4.1.20， 可 以 查阅 每 秒 钟 的 CPU 使 用 率 。 如 采 要 确认 现在 系统 正 发 生 
着 什么 ， 多 数 情况 下 使 用 sar 即 可 。 


% sar 1 3 
Linux 2.6.19.2-103.hatena.centos5 (goka.hatena.ne.jp) 02/08/08 


CPU  %user %nice %system  %iowait %steal %idle 
all 2.04 0.00 3.56 3.82 0.00 90.59 
all 2.27 0.00 2.02 1.26 0.00 94.44 
all 2.28 0.00 2.03 1.52 0.00 94.16 
all 2.20 0.00 2.54 2.20 0.00 93.07 


图 4.1.20 通过 sar 命令 来 查看 当前 数据 

可 以 为 sar 命令 指定 选项 ， 以 查看 CPU 使 用 率 以 外 的 各 数值 。 虽 然 能 够 通 
过 不 同 的 选项 来 查阅 大 量 的 报告 ， 但 这 里 只 集中 介绍 几 种 比较 常用 的 选项 
的 使 用 方式 。 另 外 ， 正 如 上 文 所 介绍 的 那样 ， 用 -P 选项 可 以 查阅 每 个 CPU 
的 数据 。 

Sar -U ...... 查看 CPU 的 使 用 率 


查看 默认 情况 下 的 CPU 使 用 率 等 信息 可 以 使 用 sar -u 命令 (图 
4.1.21) 。 各 列 指标 分 别 为 


。 user : 在 用 户 模式 中 ，CPU 被 消耗 的 时 间 比 例 


nice : 通过 nice 变更 了 调度 优先 级 的 进程 ， 在 用 户 模式 下 所 消耗 的 
CPU 时 间 的 比例 


system : 在 系统 模式 中 ，CPU 被 消耗 的 时 间 比 例 
iowait : 磁盘 IO 等 待 的 Idol 状态 消耗 的 CPU 时 间 比 例 


steal : 利用 Xen 等 系统 虚拟 化 技术 时 ， 等 待 其 他 虚拟 CPU 计算 所 占 
用 的 时 间 比 例 


idle : CPU 没有 等 待 磁盘 1/O 的 空闲 时 间 所 占用 的 时 间 比 例 


% sar -uu 1 3 
Linux 2.6.19.2-103.hatena.centos5 (koesaka.hatena.ne.jp) 02/08/08 


16:19:14 CPU %user %nice %system  %iowait %steal 
%idle 
16:19:15 all 14.89 0.00 1.74 0.00 0.00 
83.37 
16:19:16 all 26.37 0.00 1.49 0.00 0.00 
72 .14 
16:19:17 all 17.00 0.00 1.50 0.00 0.00 
81.50 
Average: all 19.42 0.00 1.58 0.00 0.00 
79 .00 


图 4.1.21 sar -u 的 运行 实例 


像 运 今 为 止 所 看 到 的 那样 ， 在 考虑 人 负载 分 流 时 ，user/system/iowait/idle 等 的 
数值 将 被 列 为 重要 的 参考 指标 。 


Sar -q ...... 查看 load average 


指定 -q 参数 ， 可 以 查看 运行 队列 中 存在 的 进程 数 、 系 统 中 进程 的 大 小 及 
load average 等 (图 4.1.22) 。 该 报告 的 数值 会 随 着 时 间 发 生变 化 ， 比 其 他 
命令 更 方便 。 


% sar -qd 1 3 
Linux 2.6.19.2-103.hatena.centos5 (koesaka.hatena.ne.jp) 02/08/08 


16:15:19 runq-sz plist-sz ldavg-1 ldavg-5 ldavg-15 
16:15:20 0 123 0.62 0.72 0.81 
16:15:21 123 0.62 0.72 0.81 


0 
16:15:22 2 122 0.62 0.72 0.81 
1 


Average : 123 0.62 0.72 0.81 


图 4.1.22 sar -gq 的 运行 实例 
sar -T ...... 查看 内 存 的 使 用 状况 
站 定 -Tr 参数 ， 可 以 浏览 物理 内 存 的 使 用 状况 。 几 4.1.23 是 在 安装 有 4GB 


的 物理 内 存 的 服务 右上 执行 sar -Fr 命令 的 结果 。 各 列 的 kbmemfree 和 
kbmemused 中 的 “kb” 是 Kilobyte 的 缩写 。 其 中 几 个 主要 项 目的 意义 如 下 。 


。kbmemfree : 可 用 的 物理 内 存 容量 

。kbmemuserd : 使 用 中 的 物理 内 存 容量 

。 memused : 物理 内 存 的 使 用 率 

kbbuffers : 被 作为 内 核 上 的 缓冲 区 使 用 的 物理 内 存 容量 
。 kbcached : 内 核 中 被 作为 缓存 使 用 的 物理 内 存 容量 

。 kbswpfree : 可 用 的 交换 区 容量 

。kbswpued : 使 用 中 的 交换 区 容量 


% sar -r | head 
Linux 2.6.19.2-103.hatena.centos5 (koesaka.hatena.ne.jp) 
02/08/08 


00:00:01 kbmemfree kbmemused %memused kbbuffers kbcached 
kbswpfree kbswpused 


00:10:01 522724 3454812 86.86 114516 2236880 
2048204 72 
00:20:01 534972 3442564 86.55 114932 2225880 
2048204 72 
00:30:01 437964 3539572 88.99 115348 2238952 
2048204 72 
00:40:01 491184 3486352 87.65 115768 2251440 
2048204 72 
00:50:01 491208 3486328 87.65 116160 2263248 
2048204 72 
01:00:01 457364 3520172 88.50 116524 2274732 
2048204 72 
01:10:01 453172 3524364 88.61 116904 2281576 
2048204 72 


图 4.1.23 ”sar -r 的 运行 实例 (省 略 部 分 列 ) 

使 用 sar -r ， 可 以 随 着 时 间 的 推移 掌握 内 存 的 使 用 情况 ， 即 了 解 内 存 具 
体 被 用 在 了 什么 地 方 ， 被 使 用 了 多 大 比例 等 。 知 与 后 述 的 sar -W 配合 使 
用 ， 还 可 以 在 频繁 访问 交换 区 时 ， 了 解 该 时 间 段 内 内 存 的 使 用 情况 。 


减轻 1O 负载 及 页 面 缓 存 


在 图 4.1.23 中 ,“%memused” 显 示 为 了 909% 左右 的 数字 ， 可 用 容量 仅 为 
500MB (Megabyte) 左右 。 随 着 时 间 的 推移 ， 可 用 容量 kbmemfree 将 越 来 
越 少 ， 可 以 判断 出 未 来 内 存 的 使 用 可 能 会 越 来 越 紧张 。 但 是 这 里 我 们 忘记 
了 Linux 中 “页 面 缓存 ”(Page Cache) 的 存在 。 


Linux 从 人 磁盘 读 出 一 次 数据 后 ， 会 尽 可 能 地 在 内 存 中 进行 缓存 ， 以 加 速 下 次 
的 磁盘 读 取 (Disk Read) 速度 。 像 这 样 ， 从 内 存 中 读 取 的 数据 的 缓存 就 被 称 
为 页 面 缓存 。 

Linux 是 将 内 存 切 分 为 4KB (Kilobyte) 的 块 进行 管理 的 ， 该 4KB 的 块 就 被 
称 为 “页 面 *(Page)。 页 面 缓存 ， 顾 名 思 义 ， 是 通过 缓存 页 面 进行 工作 的 。 也 
就 是 说 ， 从 磁盘 读 取 数据 时 就 建立 相应 的 页 面 缓存 ， 这 样 在 下 次 读 出 数据 
时 ， 直 接 将 数据 从 页 面 缓存 转送 到 用 户 空间 即 可 。 


请 记 住 Linux 平台 中 页 面 绥 存 的 行为 策略 ， 即 Linux 将 尽 可 能 地 利用 更 多 的 
内 存 来 转送 页 面 缓存 。 也 就 是 说 : 


。 无论 在 磁盘 上 读 取 什 么 数据 ， 
。 只 要 该 数据 在 页 面 缓存 上 不 存在 ， 
。 并 且 有 空余 的 内 存 空间 ， 
。 就 在 页 面 缓存 中 建立 新 的 缓存 〈 而 不 是 替代 旧 的 缓存 ) 


如 琳 当 前 没有 足够 的 内 存 用 来 缓存 ， 束 丢弃 旧 的 缓存 以 更 换 为 新 的 缓存 。 
当 进 程 需 要 内 存 空间 时 ， 将 优先 释放 页 面 缓存 以 分 配 内 存 。 


在 sar -Fr 的 结果 中 ， 随 着 时 间 的 推移 kbmemfree 会 不 断 减少 ， 这 是 因为 
存在 页 面 缓存 的 缘故 ， 从 页 面 缓存 所 分 配 的 内 存 容 量 即 kbcached 的 数值 在 
不 断 增 加 这 一 点 可 以 看 出 。 


通过 页 面 缓存 减轻 7O 负载 的 实施 效果 


页 面 缓存 可 以 多 大 程度 地 减轻 负载 呢 ? 如 果 数 据 被 完全 缓存 在 内 存 中 ， 因 
为 几乎 所 有 请 求 都 是 在 读 取 内 存 ， 因 此 可 以 预见 读 取 速度 将 和 程序 直接 读 
取 内 存 的 速度 无 异 。 


例如 ， 将 实际 运行 MySQL 的 数据 库 服 务 絮 的 内 存 从 8GB 增加 到 16GB， 增 
加 前 后 的 sar -P 0 的 输出 比较 如 图 4.1.24 所 示 。 由 于 该 数据 库 保 存 的 数 
据 不 到 20GB， 因 此 如 果 有 16GB 的 内 存 ， 就 可 以 缓存 大 部 分 的 有 歼 数 据 。 


e 内 存 为 8GB 时 


13:40:01 %nice %system %iowait 


%idle 
13:50:01 15.61 23.90 


39.92 
14:00:01 30.36 


34.45 
14:10:01 


44.73 
14:20:01 


42.50 


e 内 存 增 加 后 


15:20:01 %nice %system %iowait 


%idle 
15:30:01 E 17.56 


58.32 
15:40:01 


60.11 
15:50:01 


59.11 
16:00:01 


57.07 


图 4.1.24 sar -P 0 的 输出 比较 


0 
EE 


可 见 ， 特 别 是 在 1/O 密集 型 服务 器 中 ， 减 经 WO 负载 的 有 效 的 方法 就 是 结合 
服务 器 处 理 的 数据 量 安装 相 匹配 的 内 存 。 


通过 运行 sar -r 命令 ， 可 以 判断 内 核 确保 了 多 少 缓存 。 比 较 缓存 的 容量 
及 实际 应 用 程序 处 理 的 有 效 数据 量 ， 如 果 数 据 量 较 多 ， 就 需要 考虑 增加 内 
存 。 通 过 将 数据 合理 地 进行 缓存 ， 就 能 将 磁盘 的 访问 频率 降 至 最 低 。 使 用 
后 述 的 vmstat 工具 ， 就 能 确认 实际 的 磁盘 访问 频率 如 何 。 


在 不 能 增加 内 存 时 ， 可 以 考虑 将 数据 分 割 到 不 同 的 主机 上 “。 顺 利 分 割 数 据 
后 ， 不 仅 能 够 降低 磁 强 IO 的 负载 ， 由 于 扩充 了 缓存 中 的 数据 容 载重 ， 因 此 


还 可 以 大 幅度 提高 设备 的 吞吐 量 。 
将 所 需 的 数据 整个 放 到 页 面 缓存 上 


如 前 所 述 ， 页 面 缓存 就 是 缓存 ， 在 缓存 失败 时 ， 数 据 上 自然 要 从 硬盘 上 读 
取 。 由 于 系统 局 动 后 大 部 分 数据 都 是 未 缓存 的 状态 ， 因 此 大 部 分 的 读 取 请 
求 都 会 被 转送 到 硬盘 而 非 缓存 上 。 


在 运行 MySQL 等 的 数据 库 服 务 器 的 环境 中 ， 当 处 理 大 规模 的 数据 时 ， 需 要 


特别 注意 这 一 点 。 


例如 ， 在 重新 局 动 服务 右 进 行 维护 等 时 ， 之 前 在 内 存 中 被 缓存 的 页 面 缓存 
将 全 部 被 清空 。 那 么 在 没有 建立 相应 的 缓存 的 情况 下 ， 实 际 运行 请 求 数 很 
多 的 数据 库 服务 器 会 发 生 什么 昵 ? 可 以 想象 ， 约 莫 所 有 的 数据 库 访 问 请 求 
都 会 造成 磁盘 IO 的 负载 压力 。 在 大 规模 的 环境 中 ， 基 于 这 个 原因 致使 数据 
库 被 锁定 ， 导 致 服务 暂停 的 情况 屡见不鲜 。 因 此 在 生产 环境 中 ， 在 重启 服 
务 器 等 操作 后 ， 需 要 首先 将 所 需 的 数据 整个 放 到 页 面 缓 存 上 。 


例如 ， 当 VO 密集 型 服务 器 的 IO 负载 较 高 ， 硬 吐 数据 有 困难 时 ， 征 否 对 页 
面 缓存 进行 优化 ， 差 异 是 很 明显 的 。 


图 4.1.25 中 介绍 了 一 个 很 典型 的 数据 报表 。 这 是 在 安 狠 有 4GB 内 存 的 
MySQL 服务 器 中 ， 在 系统 局 动 后 20 分 钟 左右 使 用 sar -Fr 命令 输出 的 结 
果 。 在 系统 启动 后 ， 运 行 了 读 取 MySQL 中 所 有 数据 文件 的 (只 读 ) 程序 。 


18:20:01 kbmemfree kbmemused %memused 


kbbuffers kbcached 
18:30:01 3566992 157272 


1224 50136 


1 
18:40:01 3546264 178000 


12752 66548 
18:50:01 112628 3611636 


4312 3499144 


图 4.1.25 ”保持 页 面 缓存 的 实例 《省 略 部 分 列 ) 


启动 该 程序 前 ， 内 存 使 用 率 不 到 5%， 大 约 有 3.5GB 的 可 用 内 存 。 启 动 该 程 
序 读 取 数据 文件 后 ， 内 存 使 用 率 提 高 到 了 96.98%。 这 是 因为 程序 读 取 了 相 
应 的 数据 文件 ， 此 时 已 经 将 文件 内 容 放 到 了 页 面 缓存 上 。 


Sar -W ...... 查看 交换 区 的 吞吐 状况 


指定 -W 参数 ， 可 以 确认 交换 区 的 吞吐 状况 (图 4.1.26) 。“pswpin/s” 是 每 秒 
系统 换 入 的 页 面 数 ，“pswpout” 则 与 之 相反 ， 是 每 秒 系统 换 出 的 页 面 数 。 发 
生 频 或 的 交换 时 ， 服 务 器 的 否 吐 量 性 能 会 大 幅 下 降 。 当 服务 器 的 状态 不 理 

想 时 ， 可 以 利用 sar -WwW 检测 是 否 是 由 于 内 存 不 足 的 原因 使 交换 区 发 生 了 

频 烷 的 交换 。 


pswpin/s pswpout/s 


0.00 0.00 
0.00 0.00 
44.01 811.27 
0.39 7.21 


图 4.1.26 ”sar -W 的 运行 实例 
vmstat ...... 查看 虚拟 内 存 的 相关 信息 


简单 介绍 一 下 vmstat (Report Virtual Memory Statistics) 的 使 用 方法 。 
vmstat 的 “vm” 是 指 Virtual Memory (虚拟 内 存 ) 。vmstat 是 可 以 查看 虚 
拟 内 存 相关 信息 的 工具 。 大 多 数 指标 也 都 可 通过 sar 命令 查看 ， 但 该 命令 
的 方便 之 处 在 于 可 以 实时 确认 CPU 使 用 率 及 实际 的 IO 等 待 时 间 。 


vmstat 和 sar 的 使 用 方法 很 相似 。vmstat 1 1009 是 “每 隔 1 秒 采 样 
次 ， 连 续 采 样 1000 次 ”的 意思 。 


图 4.1.27 是 vmstat 的 输出 实例 。 各 个 项 目的 意义 请 参阅 man vmstat 的 
帮助 文件 。 但 通过 之 前 的 说 明 ， 从 项 目 名 称 应 该 就 能 想象 到 大 概 的 意义 。 


r b swpd free buff cache si so bi bo in cs us sy 


id wa 

0 0 4 61692 342476 118464 0 0 3 16 105 41 1 1 
98 0 

© 0 4 61692 342476 118464 0 0 0 © 101 12 0 0 
100 0 

© 0 4 61692 342480 118464 0 0 0 192 101 18 0 0 
100 0 

© 0 4 61692 342480 118464 0 0 0 © 101 10 0 0 


图 4.1.27 vmstat 的 输出 实例 

图 4.1.27 中 所 示 的 “bi* 和 “bo”* 的 数值 的 意义 分 别 为 

。bi : 每 秒 从 块 设备 接收 到 的 块 数 ， 即 读 块 设备 (blocks/s) 
。bo : 每 秒 发 送 到 块 设备 的 块 数 ， 即 写 块 设备 (blocks/s) 


所 谓 块 设备 (Block Device) ， 坦 白 说 就 是 二 次 存储 装置 ， 也 就 是 磁盘 。 
Linux 是 把 硬件 的 输入 输出 分 成 以 下 两 类 进行 处 理 的 。 


。 字符 设备 (Character Device) : 以 字 节 为 单位 进行 输入 输出 的 硬件 
。 块 设备 : 简称 为 块 ， 以 一 定 大 小 的 块 为 单位 进行 输入 输出 的 硬件 


磁盘 就 相当 于 这 个 块 设备 。 通 过 vmstat 命令 ， 可 以 将 此 时 磁盘 的 读 (bi) 
写 (bo) 情况 以 块 为 单位 显示 出 来 。 


通过 top 和 sar 命令 ， 可 以 同时 确认 CPU 使 用 率 及 IO 等 待 时 间 。 但 是 从 
IO 等 待 的 数字 我 们 只 能 看 出 系统 宏观 的 IO 等待 时 间 ， 如 果 想 知道 具体 哪 
里 发 生 了 IO 的 读 写 ， 可 以 使 用 vmstat 命令 来 进行 确认 。 


4.1.12 ”找到 系统 负载 的 症结 并 解决 


明白 了 如 何 监控 人 负载 之 后 ， 接 下 来 忠 要 进入 优化 系统 的 课题 了 。 虽 然 这 么 
说 ， 但 是 本 书 中 并 不 会 做 过 多 讲解 。 提 到 “优化 ”这 个 词语 ， 说 不 是 有 人 会 
想 这 是 要 将 软件 性 能 提高 两 三 倍 呢 。 


但 其 实 优化 的 真正 工作 是 “ 找 出 系统 瓶颈 并 加 以 解决 ”。 首 移 需 要 了 解 到 的 
是 ， 想 要 突破 硬件 或 软件 原本 的 性 能 是 怎样 努力 都 无 法 达到 的 ， 我 们 所 能 
做 的 殊 是 “充分 发 挥 硬 / 软件 本 来 的 性 能 ， 解 决 可 能 存在 的 问题 ”。 


最 近 的 系统 和 中 间 件 ， 稚 认 的 设 定 状态 就 可 以 充分 发 挥 性 能 。 束 像 即使 拓 
宽 了 不 拥 墙 的 高 速 公 路 车 道 ， 一 辆 汽车 到 达 目 的 地 的 时 间 也 不 会 缩短 。 如 
果 默 认 的 设 定 已 经 是 最 优 ， 那 么 无 论 再 怎么 改变 设 定 ， 大 多 数 情 况 下 也 是 
没有 效果 的 。 

例如 ， 逻 辑 最 优 的 情况 下 ，CPU 也 需要 10 秒 时 间 计 算 处 理 ， 无 论 怎样 改动 


系统 的 设置 也 不 可 能 缩短 至 10 秒 以 下 。 这 束 是 一 个 典型 的 不 拥堵 的 高 速 公 
路 的 例子 。 


但 若是 程序 的 IO 性 能 存在 问题 ， 该 程序 本 来 10 秒 就 可 以 结束 ， 但 结果 花 
费 了 100 秒 才 完成 IO 的 读 写 ， 这 种 情况 下 就 可 以 优化 IO 性 能 。 这 个 是 拥 
堵 的 高 速 公 路 的 例子 。 为 了 改善 VO 性 能 ， 需 要 考虑 如 下 问题 : 

。 能 否 通 过 增加 内 存 确 保 足 量 的 缓存 空间 来 解决 

。 原本 数据 量 是 否 过 多 

。 是 否 需要 变更 应 用 程序 方面 的 IO 算法 


知道 了 问题 的 原因 之 后 ， 根 据 经 验 很 快 束 能 找到 适当 的 解决 办 法 。 而 实践 
这 一 解决 方法 的 过 程 ， 融 是 所 谓 的 优化 。 


最 后 再 强调 一 裔 ， 为 了 最 大 限度 地 发 挥 硬 件 及 系统 的 性 能 ， 需 要 掌握 足够 
的 经 验 ， 例 如 发 生 瓶 颈 时 需要 能 清楚 地 判明 具体 是 哪里 出 现 了 瓶颈 等 。 本 
章 中 所 说 明 的 有 关系 统 内 部 的 实现 机 制 和 负载 监控 的 方法 ， 都 是 最 基础 的 


知识 。 
4.2 ”Apache 的 优化 


4.2.1 ”Web 服务 器 的 优化 


截止 到 目前 都 是 在 围绕 系统 进行 讲述 ， 下 面 我 们 将 目光 转向 系统 上 运行 的 
应 用 程序 、Web 服务 器 。 这 里 主要 介绍 广泛 使 用 的 Web 服务 器 : Apache 
HTTP SERVER (Apache) 8 。 


8 URL http://httpd.apache.org/ 


与 系统 的 优化 类 似 ，Web 服务 右 的 优化 也 并 不 是 说 能 够 让 Web 服务 絮 的 性 
能 有 两 三 倍 的 提高 。 这 里 的 优化 是 指 充分 发 挥 服务 套 原 本 应 有 的 性 能 。 


4.2.2 ”Web 服务 器 遭遇 瓶颈 怎么 办 


其 实 ， 当 Web 服务 着 因 超载 而 不 能 很 好 地 返回 啊 应 时 ， 问 题 基本 上 与 Web 
服务 句 的 配置 并 无 太 大 关系 。Web 服务 做 是 相对 比较 稳定 的 软件 ， 在 系统 
上 并 不 消耗 过 多 的 资源 。 


问题 只 是 无 响应 的 问题 在 Web 服务 器 上 表现 得 比较 明显 ， 而 其 实 症 结 并 不 
一 定 在 Web 服务 如 。 束 像 生病 出 现 了 发 烧 现 象 一 样 ， 光 是 退烧 ， 病 是 无 法 


治 鳃 的。 


在 这 样 的 情况 下 ， 无 论 如 何 改动 Apache 的 配置 ， 只 要 其 他 地 方 还 存在 问 

题 ， 那 么 再 怎么 调整 Apache 的 配置 也 是 没有 意 义 的 ， 请 首先 认识 到 这 一 

点 。 正 如 在 4.1 下 中 所 介绍 的 那样 ， 我 们 不 能 单 改变 Apache 的 配置 来 监控 

系统 的 情况 ， 查 出 问题 的 根源 是 最 重要 的 。 这 里 也 需要 做 到 “ 别 脐 断 ， 请 监 
控 ”。 很 多 问题 都 可 以 使 用 目前 为 止 了 解 到 的 ps 、sar 、vmstat 等 等 工具 
找 出 。 


TAR 


当 人 硬件 和 系统 充分 发 挥 其 性 能 时 ， 有 是 不 太 会 出 现 负 载 超标 的 情况 的 ， 但 是 
一 旦 发 生 负 载 超标 ， 就 需要 仔细 权衡 Web 服务 器 的 各 项 配置 。 本 文 将 从 
Apache 的 配置 项 目 中 ， 选 取 几 个 在 大 规模 并 发 的 生产 环境 中 可 能 会 影响 性 
能 的 设置 选项 进行 讲解 。 


4.2.3 ”Apache 的 并 发 处 理 与 MPM 
Apache 的 配置 项 目 之 前 ， 先 来 回顾 一 下 Apache 的 并 发 处 理 的 结 


不 仅 限 于 Apache， 面 向 非特 定 的 多 个 客户 端的 公 网 服务 器 都 需要 能 够 并 发 
处 理 来 目 多 个 客户 端的 请 求 。 知 不 进行 并 发 处 理 ， 在 一 个 客户 端 连接 服务 
器 进行 输入 输出 期 间 ， 其 他 客户 端 将 无 法 连接 到 该 服务 器 (图 4.2.1) 。 特 
别 是 以 Apache 为 代表 的 Web 服务 右 ， 如 何在 同一 时 间 处 理 多 个 连接 是 决定 
性 能 的 根本 因素 ， 并 发 处 理 的 正确 实现 会 对 服务 器 的 性 能 带 来 很 大 影响 。 


进程 / 线程 


未 并 发 处 理 
图 4.2.1 能 / 否 并 发 处 理 


目前 第 用 的 有 以 下 几 种 并 发 处 理 模式 .: 
。 通 过 生成 多 个 进程 实现 并 发 处 理 的 多 进程 模式 
。 不 通过 进程 ， 而 使 用 更 轻 量 的 运 


。 通过 监控 输入 输出 事件 ， 在 事件 发 生 时 进行 切换 处 理 ， 即 可 使 用 单线 
程 进行 并 发 处 理 ， 这 就 是 事件 驱动 的 处 理 模式 


8 不 能 肯定 哪个 最 好 。 目 前 也 有 综合 了 这 些 模式 的 应 


Apache 通过 模块 化 清楚 地 分 离 了 内 部 的 各 种 功能 ， 进 行 并 发 处 理 的 核心 部 
分 也 单独 成 为 了 模块 的 结构 。 在 这 里 ， 模 块 通 浓 被 称 为 MPM (Multi 
Processing Module) 。 根 据 所 选择 的 MPM 的 不 同 ， 用 户 可 以 决定 使 用 不 同 
， ° 在 Apache 2.2 中 可 以 使 用 的 MPM 可 通过 以 下 链接 进行 
确认 。 


URL http://httpd.apache.org/docs/2.2/zh-cn/mod/ 
UNIX 环境 中 最 具 代表 性 的 MPM 是 以 下 两 个 (图 4.2.2) 9 : 


9 比 外 还 有 在 worker 2 event MPM”， 在 Apache 2.2 版 本 上 该 模块 可 以 在 实 
验 的 环境 中 使 用 ， 没 有 被 过 多 地 利用 在 生 


。prefork: 提前 生成 (Prefork) 多 个 进程 以 供 客 户 端 连接 的 多 进程 模式 
。 worker : 多 线程 和 多 进程 的 混合 型 模式 


Worker 


图 4.2.2 UNIX 环境 中 具有 代表 性 的 MPM 


由 于 是 在 编译 时 决定 具体 使 用 哪 种 MPM 模式 的 ， 因 此 之 后 再 决定 使 用 其 他 
MPM 时 基本 上 就 需要 重新 编译 Apache。 但 在 Red Hat Enterprise Linux 及 基 
于 Red Hat 的 Cent OS 的 Linux 上 ， 同 时 安装 了 文 持 prefork 和 worker 的 两 
种 httpd。 默 认可 以 使 用 prefork 混合 模式 ， 若 要 切换 到 worker 模式 ， 可 以 
在 /etc/sysconfig/httpd 中 进行 如 下 设 定 : 


HTTPD=/usSr/sbin/httpd.worker 


prefork 与 worker， 进 程 与 线程 


prefork 是 多 进程 模式 ，worker 是 多 线程 和 多 进程 的 混合 型 模式 。 由 于 后 者 
所 占用 的 内 存 相对 较 小 ， 因 此 在 大 规模 并 发 环境 中 更 适合 使 用 worker 模 
式 。 让 我 们 再 详细 说 明 一 下 。 

从 编程 模型 看 多 进程 / 多 线程 的 差异 

Apache 不 仅 可 以 返回 单一 的 HIML 或 图 片 等 静态 文件 ， 还 可 以 结合 
mod_perl 和 mod_php 等 模块 被 作为 AP 服务 器 来 使 用 ， 或 者 如 2.1 节 中 所 


介绍 的 那样 结合 mod_proxy_balancer 模块 被 作为 反问 代理 使 用 ， 可 以 看 出 
模块 的 选择 可 以 决定 Apache 的 功能 。Apache 2.2 的 使 用 范围 则 更 加 广泛 


(当然 也 存在 一 些 异 议 ) ， 如 今 Apache 与 其 说 是 Web 服务 器 ， 不 如 说 是 一 
个 通用 的 网 络 服务 平台 。 


一 般 来 说 , “多 进程 ?和 “多 线程 > 之 中 ， 后 者 的 编程 模型 往往 更 加 复杂 。 这 里 
我 们 再 来 重新 确认 一 下 图 4.1.11 及 图 4.1.12。 


。 人 \ 在 进程 之 间 直 接 共享 内 存 。 内 存 空 间 是 独立 且 安全 


。 在 多 线程 中 ， 多 个 线程 共享 内 存 空间 ， 需 要 留意 不 能 发 生 资源 冲突 
这 也 是 多 线程 编程 复杂 的 原因 


因此 ， 在 第 三 方 的 Apache 模块 中 ， 存 在 不 能 在 多 线程 环境 中 正常 工作 的 模 
以 及 不 是 基于 多 线程 运行 的 模块 ， 这 些 模块 都 是 以 使 用 prefork 为 前 提 


因此 ， 我 们 可 以 对 这 两 种 模块 做 出 如 下 定位 。 
。prefork : 该 MPM 具有 更 高 的 稳定 性 和 向 后 兼容 性 
。 worker : 该 MPM 的 可 扩展 性 更 强 


需要 考虑 使 用 第 三 方 模块 时 使 用 worker， 或 者 在 使 用 第 三 方 模块 时 ， 根据 
该 模块 的 规格 合理 选择 prefork 或 worker， 这 是 一 个 应 该 遵循 的 准则 10 。 


10 在 worker 中 运行 mod_perl 时 ，Perl 将 通过 ithreads 生成 线程 。 由 于 Perl 的 线程 多 少 有 些 特 殊 ， 
在 prefork 的 情况 下 可 能 存在 一 些 规格 的 差异 ， 因 此 有 很 多 用 户 因 为 讨厌 这 一 点 而 选择 prefork 模 


了 Re 


从 性 能 的 观点 来 看 多 进程 / 多 线程 的 差异 
通常 迟 况 下 ， 在 多 进程 和 多 线程 中 ， 后 者 更 轻 量 更 快 。 主 要 原因 有 以 下 两 


@ 多 进程 使 用 多 个 独立 的 内 存 空 间 ， 而 多 线程 只 使 用 共享 的 内 存 空 间 ， 因 
此 内 存 消耗 量 较 少 


@ 因为 多 线程 共享 内 存 空间 ， 所 以 线程 切换 的 成 本 低 于 多 进程 
在 Apache 中 ， 基 于 什么 因素 来 决定 选择 哪 种 模式 呢 ? 


关于 @ ， 从 内 存 占 用 量 方面 来 说 确实 使 用 多 线程 的 worker 更 胜 一 筹 。 但 事 
实 上 即使 在 使 用 多 进程 的 情况 下 ， 由 于 内 存 空间 在 没有 更 新 时 是 被 父子 进 
程 所 共享 的 ( 即 写 时 复制 技术 ，Copy-on-Write) ， 因 此 性 能 上 并 没有 显著 
差异 。 关 于 写 时 复制 技术 后 面 会 有 详细 讲解 。 


是 在 讲 上 下 文 切 换 (Context Switch， 也 称 文本 切换 ) 的 成 本 差别 。 
2 为 实现 并 发 处 理 ， 需 要 在 短 时 间 内 切换 处 理 内 容 不 
同 的 进程 /线程 ， 此 时 的 进程 / 线程 的 转换 处 理 就 被 称 为 “上 下 文 切 换 ”。 
在 进行 上 下 文 切换 时 ， 由 于 多 线程 是 共享 内 存 空间 的 ， 因 此 可 以 跳 过 内 存 
空间 的 切换 处 理 。 所 于 没有 发 生 切 换 内 存 空 x 间 的 动作 ， 因 此 就 不 需要 改变 
(正规 叫 法 是 TLB3 ) ， 这 对 性 能 的 提升 具有 很 显著 的 


也 关于 多 任务 切换 的 详细 内 容 请 参考 41 节 。 


12 TLB (Translation Lookaside Buffer， 转 址 旁 路 缓存 ， 也 被 称 为 页 表 缓 存 、 译 后 备 缓冲 器 ) 是 为 
开交 高 将 内 容 的 虚拟 地 址 映射 到 物理 地 址 这 一 处 理 的 速度 的 缓存 ， 是 存在 于 CPU 内 部 的 结构 。 一 
生 上 下 文 切换 ，TLB 就 会 被 刷新 (Flash) ， 受 此 影响 若 TLB 缓存 失误 ， 则 损失 的 性 能 成 本 会 
上 

基于 以 上 两 点 可 以 明白 如 下 内 容 ; 


。 8 prefork 变更 为 worker， 对 于 单位 客户 端的 响应 时 间 也 未 必 会 


dt 


。 即使 将 prefork 变更 为 worker， 只 要 拥有 足够 的 内 存 ， 则 能 够 同时 操 
作 的 并 发 数 也 并 不 会 增加 


。 即使 将 prefork 变更 为 worker， 只 要 不 存在 海量 的 上 下 文 切 换 (没有 
同时 并 发 的 大 量 访问 ) ， 则 改善 的 效果 并 不 大 


0 1 到 将 prefork 切换 为 worker 能 够 改善 性 能 的 情况 是 很 有 限 


相反 ， 适 合 变更 为 worker 模式 的 情况 如 下 : 


。 可 用 内 存量 不 多 或 仅 有 少量 的 内 存 消耗 时 。 在 这 种 情况 下 ， 比 进程 的 
内 存 消 耗 量 少 的 线程 的 优点 可 以 得 到 充分 地 发 挥 


。 在 上 下 文 的 切换 次 数 较 多 ， 需 要 减少 该 部 分 的 CPU 资源 占用 时 ， 也 就 
是 说 大 量 访问 的 挤占 造成 CPU 使 用 率 变 高 3 ， 需 要 降低 CPU 使 用 率 


时 。 与 进程 相 比 ， 线 程 间 的 上 下 文 切 换 的 性 能 成 本 较 低 ， 因 此 切换 到 
该 模式 可 以 降低 CPU 的 负载 


13 上 下 文 切 换 次 数 可 以 通过 sar -c 命令 来 查询 。 
一 个 客户 端 对 应 一 个 进程 / 线程 
prefork 和 worker 的 共同 点 是 Apache 对 于 来 和 目 客 户 端的 每 个 请 求 ， 都 会 分 
配 一 个 进程 或 线程 来 进行 处 理 。 也 就 古 说 ， 如 果 同 时 有 十 个 客户 端 发 出 请 
求 ， 束 会 分 配 十 个 进程 或 十 个 线程 来 进行 响应 。 


es 在 Apache 运行 第 三 方 的 应 用 程序 时 ， 该 应 用 程序 的 开发 者 可 以 更 加 容易 地 进行 


能 够 同时 生成 多 少 进程 /线程 决定 了 Apache 的 处 理性 能 ， 因 此 需要 配置 一 
个 最 佳 的 设 定 项 来 控制 进程 /线程 数 ， 这 也 可 以 说 是 Apache 优化 的 关键 。 
让 我 们 继续 详细 地 了 解 一 下 吧 。 


4.2.4 httpd.conf 的 配置 


httpd.conf 的 配置 将 决定 Apache 的 性 能 ， 特 别 会 对 “能 够 同时 处 理 的 请 求 
数 ” 产 生 影响 ， 下 文 将 进行 详细 讲解 。 


Apache 的 安全 阀 MaxClients 


由 于 Web 服务 器 将 受理 来 自 数目 不 详 的 客户 端的 请 求 ， 因 此 需要 在 设计 时 
考量 到 : 无 论 什 么 时 候 遇 到 什么 程度 的 流量 ， 都 应 该 能 够 处 理 。 


全 此 需要 根据 负载 动态 控制 Apache 的 进程 /线程 数 。 但 是 动态 控制 的 结果 
可 能 会 导致 生成 大 量 的 进程 /线程 ， 甚 至 会 占用 全 部 的 设备 资源 。 


因此 就 需要 设 定 MaxClients 这 个 安全 阀 ， 来 设 定 可 以 同时 连接 的 请 求 数 的 
上 限 值 。 若 没有 MaxClients， 当 大 量 请 求 同 时 请 来 ， 超 过 该 系统 允许 的 请 
求 数 时 ， 将 会 导致 系统 内 存 耗 尽 ， 从 而 致使 设备 死机 ， 或 者 CPU 耗 尽 变 得 
无 法 啊 应 等 致命 故障 。 
当 请 求 过 多 时 ， 可 以 将 MaxClients 设 定 为 : 

。 将 不 能 处 理 完 的 请 求 安排 在 等 候 队 列 中 等 待 一 段 时 间 


。 若 等 待 队 列 溢出 ， 对 该 请 求 返回 错误 并 将 其 退回 到 客户 端 


以 上 策略 均 需 要 通过 Apache 的 安全 内 MaxClients 实现 ， 以 避免 系统 死机 等 
最 坏事 态 的 发 生 。 


这 个 安全 浆 MaxClients 的 上 限 值 是 静态 的 数值 ， 必 须根 据 设备 资源 进行 手 
动 配置 。 调 整 该 数值 束 是 Apache 优化 的 天 键 。 反 过 来 说 ， 其 他 项 目的 调 市 
对 性 能 并 没有 什么 太 大 的 影响 。 下 面 就 对 该 安全 嵌 MaxClients 的 数值 调整 
进行 详细 和 叙述 。 


在 prefork 模式 的 情况 下 
在 prefork 模式 的 情况 下 ， 配 置 项 目 相 对 人 简单。 安全 阀 束 是 在 ServerLimit 和 
MaxClients 这 两 个 指令 中 设 定 的 参数 。ServerLimit 及 MaxClients 决定 了 
Apache 能 够 同时 生成 的 进程 数 的 上 限 值 。 这 两 个 参数 原本 的 意义 如 下 。 

。 ServerLimit : 服务 器 数量 ， 即 prefork 中 进程 数 的 上 限 

。 MaxClients : 能 同时 连接 的 客户 端 数 的 上 限 值 
但 这 对 使 用 一 个 进程 处 理 一 个 客户 端 请 求 的 prefork 来 说 ， 两 者 的 意义 大 致 


相同 。 要 想 提高 进程 数 的 上 限 值 ， 可 以 对 ServerLimit 和 MaxClients 进行 
配置 。 一 般 情 况 下 设 定 的 原则 是 不 能 让 MaxClients> ServerLimit 。 


15 在 worker 模式 等 其 他 MPM 中 ， 两 者 的 区 别 具 有 意义 。 


ServerLimit 
MaxClients 


因此 可 以 像 上 面 这 样 先 配 置 ServerLimit。 上 面 所 配置 的 最 大 进程 数 (能 够 
同时 连接 的 客户 端的 数量 ) 为 50。 

除 此 之 外 ， 还 有 控制 进程 / 线程 数 的 MinSpareServers 、 MaxSpareServers 、 
StartServers 等 参数 ， 由 于 这 些 项 目 对 性 能 的 影响 并 不 是 很 大 ， 因 此 在 这 里 
残 不 讲解 了 。 


这 里 还 有 个 问题 ， 即 配置 该 ServerLimit * MaxClients 时 ， 有 具体 将 数值 设置 
为 多 少 才 好 呢 ? 当然 我 们 不 能 仅 赁 感觉 来 设 定 这 些 参数 ， 而 要 通过 


。 服务 器 所 安装 的 物理 内 存 的 容量 


。 单位 进程 的 平均 内 存 消 耗 量 
这 两 点 进行 估算， 以 合理 配置 可 以 生成 多 少 进程 。 


第 一 点 通过 查看 人 硬件 的 详细 说 明 即 可 得 知 ， 或 者 也 可 以 通过 free 等 命令 
进行 查看 。 


但 第 二 点 ， 即 进程 占用 的 内 存 大 小 要 如 何 查 看 呢 ? 虽然 通过 ps 和 op 也 
能 确认 ， 但 是 这 里 还 是 从 proc 文件 系统 来 查看 吧 。 在 Linux 中 ， 

过 /proc/< 进 程 的 PID>/status 就 以 者 济 程 谍 内 各 代用 量 详 入 Sk 
于 这 些 项 目的 意义 ， 请 参考 内 核 源 代码 的 附属 文件 


(Documentation/filesystem/proc.txt) 


在 图 4.2.3 的 摘要 中 ，VmHWM 是 该 进程 实际 使 用 的 内 存 空间 的 大 小 。 图 
4.2.3 的 例子 是 和 mod_perl 模块 一 起 被 作为 AP 服务 器 使 用 的 Apache 统 

计 ， 可 以 了 解 到 目前 所 使 用 的 物理 内 存 不 足 100MB。VmPeak 和 VmSize 是 
虚拟 内 存 上 的 空间 ， 在 物理 内 存 上 所 对 应 的 空间 由 VmHWM 指示 。 


% cat /proc/23812/status 
Name: httpd 

S (sleeping) 

> 


342544 kB 
341036 kB 
9 kB 
99016 kB “进程 实际 使 用 的 物理 内 存 区 域 的 大 小 
97644 kB 
94572 kB 
84 kB 
308 kB 
19072 kB 
668 kB 


图 4.2.3 ”进程 的 内 存 使 用 量 等 摘要 


从 VmHWM 的 数值 可 以 得 知 httpd 各 进程 的 VmHWM 平均 值 。 例 如 图 
4.2.3 的 例子 就 表示 : 


。 安 装 了 4GB 的 内 存 容量 


。 每 个 httpd 进程 的 内 存 使 用 量 为 100MB 

。 操作 系统 的 保留 内 存 为 512MB 

。 4GB 一 512MB = 3.5GB — 3,500/100 三 35 
按照 以 上 逻辑 ， 可 以 将 MaxClients 设置 为 35。 


但 是 ， 仅 这 些 判 断 材料 还 不 够 。Linux 为 了 节约 物理 内 存 ， 在 父 进程 和 子 进 
了 一 部 分 内 存 。 考 虑 这 个 共 至 部 分 的 内 存 ， 还 可 以 配置 更 大 


父子 进程 共享 内 存 的 写 时 复制 技术 


所 有 用 户 进程 都 是 从 其 他 某 个 进程 fork 生成 的 ， 即 所 有 进程 都 存在 有 父 进 
程 。 在 prefork 模式 的 Apache 下 ， 首 先 局 动 某 个 httpd 父 进 程 ， 然 后 该 进程 
再 生成 多 个 httpd 子 进程 。 


在 使 用 fork 生成 进程 的 情况 下 ， 父 子 进 程 在 不 同 的 内 存 空间 运作 ， 彼 此 互 
不 干扰 。 为 了 实现 独立 的 内 存 空间 ， 可 以 使 用 fork 从 父 进程 复制 整个 内 存 
的 内 容 到 子 进程 ， 但 是 这 个 复制 处 理 的 成 本 非常 高 。 


Linux 操作 系统 中 ， 在 进行 fork 操作 后 ， 被 映射 到 虚拟 内 存 空间 的 物理 内 存 
空间 在 不 被 复制 的 情况 下 由 父子 进程 共享 。 该 共享 空间 是 通过 分 别 准备 父 
子 进程 所 需 的 虚拟 内 存 空间 ， 并 从 各 自 的 虚拟 内 存 空 间 映 射 同样 的 物理 内 
存 空间 来 实现 的 (图 4.2.4) 。 若 父 进程 或 子 进 程 对 虚拟 内 存 进 行 写 入 ， 那 
么 进行 该 写 入 的 空间 吏 不 能 再 继续 被 共 蛙 ， 这 时 父子 进程 才 分 别 拥有 了 映 
员 到 该 区 域 的 实际 的 物理 空间 。 


父 进程 的 虚拟 空间 物理 内 存 父 进 程 物理 内 存 


| “共享 | 
' 届 仅 从 父 进程 查看 | 
wy 仅 从 子 进程 查看 
物理 页 面 
发 生 内 存 写 入 操作 
更 新 的 页 面 
子 进程 的 虚拟 空间 子 进程 
fork() 之 后 父子 进程 映射 同一 仅 限 已 更 新 的 地 方 映 射 独立 的 
物理 内 存 空 间 内 存 空 间 


图 4.2.4 ”虚拟 内 存 的 写 时 复制 


反 过 来 说 ,没有 进行 写 入 的 内 存 空间 能 永远 被 共享 ， 因 此 就 可 以 避 开 内 存 
上 的 页 面 重复 以 更 加 有 效 地 利用 内 存 。 


该 结构 被 称 为 “ 写 时 复制 技术 ”(Copy on Write) ， 即 “在 写 入 时 才 进 行 复 
制 ?的 意思 。 也 可 以 理解 为 fork 时 内 存 复制 的 延迟 处 理 。 


查看 写 时 复制 时 共享 的 内 存 大 小 


要 配置 MaxClients， 还 需要 考虑 在 实际 使 用 的 内 存 区 域 中 ， 父 子 进 程 共享 
的 物理 内 存 空间 的 大 小 。 共 享 内 存 空间 可 以 通过 /proc/< 进 程 的 
PID>/smaps 的 数据 查看 ， 但 在 数据 量 很 多 时 ， 调 查 将 变 得 比较 困难 。 在 
此 制作 了 调查 共享 内 存 大 小 的 Perl 脚本 (代码 清单 4.2.1) 。 提 交 动 态 参 
数 一 进程 的 ID， 就 可 以 查看 该 进程 的 共享 内 存 的 大 小 。 图 4.2.5 是 与 
pgrep 配合 使 用 所 输出 的 数据 。 


| 16 在 Linux 中 执行 该 Perl 脚本 需要 另外 安装 Smaps 。 


代码 清单 4.2.1 shared_memory_size.pl 


#1!/usSr/bin/env perl 
USe strict; 
USe warnings; 


use Linux: :Smaps; 
@ARGV or die "usage: $0 [pid ...]"; 
print "PID\tRSS\tSHARED\N"; 


for my $pid (@ARGV) { 
my $map = Linux::Smaps->new($pid); 
unless ($map) { 
warn $1!; 
next,; 


} 


printf 
"%d\t%d\t%d (%d%%)\n", 
$pid, 
$map->rss, 
$map->shared_dirty + $map->shared_clean, 
int((($map->shared_dirty + $map->shared clean) / $map->rss) * 


100) 


% shared memory_size.pl ‘pgrep httpd 
PID RSS 


SHARED 


66032 (95%) 


55216 (71%) 
54292 (67%) 
54236 (70%) 
54340 (68%) 
55492 (72%) 


图 4.2.5 运行 实例 


显示 的 内 存 大 小 的 单位 是 KB (Kilobyte) 。RSS 是 整个 进程 分 配 的 内 存 大 
小 ，SHARED 是 其 中 父子 进程 共享 的 空间 的 大 小 。 这 里 的 70% 左右 的 数字 
是 父子 进程 所 共享 的 内 存 空间 的 比例 。 


另外 在 写 时 复制 技术 机 制 中 ， 随 着 时 间 的 流逝 ， 该 共享 的 比例 会 不 断 下 
降 。 启 动 httpd 之 后 ， 所 输出 的 共享 比率 的 数字 自然 会 升 高 ， 因 此 该 数值 并 


没有 很 大 的 参考 价值 。 MaxClients 的 参数 的 设 定 原则 是 能 让 系统 稳定 运 
行 ， 不 发 生 大 的 流动。 因此 可 以 试 着 发 出 一 定数 量 的 请 求 ， 采 用 系统 相对 
稳定 时 的 数值 即 可 。 然 后 考虑 之 前 估算 过 程 中 父子 进程 所 共享 的 内 存 大 
小 ， 束 会 得 出 以 下 结论 : 

。 安 装 了 4GB 内 存 的 内 存 容量 

。 每 个 http 进程 的 内 存 使 用 量 为 100MB 

。 其 中 70% 被 父子 进程 共享 ， 每 个 子 进程 的 内 存 使 用 量 为 30MB 

。 操作 系统 的 保留 内 存 为 512MB 

。 4GB 一 512MB = 3.5GB — 3,500/30 三 116.66 
因为 平均 内 存 使 用 量 和 共享 率 只 是 大 致 计算 出 来 的 ， 所 以 实际 上 配置 为 100 
左右 就 行 了 。 
MaxRequestsPerChild 
在 这 里 做 一 些 补充 。 基 于 写 时 复制 的 内 存 共享 ， 共 享 率 会 随 着 时 间 的 流 挝 
而 降低 。 这 样 的 话 ， 在 Web 服务 器 这 样 持续 运作 的 软件 中 ， 最 终 大 部 分 的 
空间 都 将 极 持 续 挤 占 而 不 能 被 共享 。 
Apache 中 会 定期 结束 子 进 程 并 建立 新 的 子 进程 ， 基 于 该 方法 可 以 避免 上 述 


事态 的 发 生 。 鉴 于 新 建立 的 子 进 程 是 通过 父 进程 的 fork 建立 的 ， 因 此 在 建 
se ， 可 以 将 内 存 中 的 内 容 完 整地 返回 到 父 进程 所 关联 的 子 进 程 


在 此 可 如 下 配置 MaxRequestsPerChild 指令 的 参数 : 


MaxRequestsPerChild 1024 


这 里 设 定 了 每 个 进程 将 会 处 理 1,024 个 请 求 ， 该 进程 处 理 完 第 1,024 次 的 请 
求 之 后 束 会 目 动 结束 ， 父 进程 会 在 此 建立 新 的 子 进 程 。 


通过 合理 配置 MaxReqeustsPerChild 的 参数 ， 还 可 以 避免 使 用 mod_perl 及 
mod_php 模块 运行 的 应 用 程序 引起 内 存 港 漏 ， 这 是 发 生 内 存 时 洞 持 续 消 耗 
内 存 时 的 有 效应 急 措 施 。 


在 会 接收 到 大 量 请 求 的 大 型 服务 絮 中 ， 如 果 MaxRequestsPerChild 的 数值 太 
小 ， 就 会 频繁 重复 进行 进程 的 建立 和 结束 ， 因 此 可 能 需要 适当 增加 该 数值 
的 大 小 。 相 反 ， 在 请 求 不 多 的 服务 左上， 即使 将 MaxRequestsPerChild 的 数 
值 设置 得 比较 小 ， 此 负担 也 几乎 不 存在 。 可 以 在 综合 考虑 CPU 负载 状况 及 
进程 所 占用 的 内 存 空间 大 小 等 基础 上 ， 设 置 出 恰当 的 数值 。 
在 worker 模式 的 情况 下 
worker 是 多 进程 和 多 线程 的 混合 型 模式 。 

。 在 一 个 进程 中 生成 多 个 线程 ， 一 个 客户 端 交 由 一 个 线程 进行 处 理 

。 生成 多 个 进程 
具体 行为 如 上 。 因 此 ， 进 程 数 x 每 个 进程 的 线程 数 这 一 数量 的 线程 将 并 发 
运作 。 进 程 的 部 分 使 用 与 prefork 类 似 的 方法 进行 优化 。 而 在 对 线程 部 分 进 
行 优 化 时 ， 则 需要 坚持 以 下 原则 : 


。 线程 与 进程 不 同 ， 线 程 间 共享 全 部 的 内 存 空间 。 不 需要 考虑 像 写 时 复 
制 那样 的 情况 


。 每 一 个 线程 需要 最 大 不 超过 8,192KB 的 内 存 作为 栈 空间 17 


指定 。 此 处 的 8,192KB 取决 于 3 


这 


| 
油 


1 这 是 Apache 的 规格 。 在 Linux 环境 中 ， 线 程 的 栈 大 小 由 系 
统 ， 具 体 可 以 通过 ulimit -s 命令 进行 确认 。 


A 
二 
CC 


在 Worker 模式 的 情况 下 ， 除 ServerLimit、MaxClients 的 参数 之 外 ， 还 需要 
调整 ThreadLimit 和 ThreadsPerChild。worker 模式 下 的 配置 需要 了 解 : 


。 可 以 在 同一 时 间 连 接 的 客户 端 数 ， 也 就 是 进程 数 x 线程 


。 ServerLimit : 最 大 进程 数 
。 ThreadLimit : 每 个 进程 的 最 大 线程 数 
。 站 每 个 进程 的 最 大 线程 数 (与 ThreadLimit 大 致 相 


MaxClients 是 系统 能 够 容许 的 客户 端 数量 ， 通 过 与 其 他 参数 配合 设 定 ， 可 
以 把 探 进程 和 线程 同时 处 理 的 客户 端 数量 。 确 定 MaxClients 后 再 确定 


ThreadsPerChild 后 ， 就 能 进一步 确定 所 需 的 进程 数 了 。 例 如 在 MaxClients 
为 4096，ThreadsPerChild 为 128 时 ， 


。 MaxClients 4096/ThreadsPerChild 128 = 32 进程 
因此 ， 需 要 经 常 调整 以 满足 ServerLimit > 


MaxCclients/ThreadsPerChild 这 个 关系 。 当 关系 不 满足 时 ， 这 一 情况 
将 会 被 记录 在 错误 日 志 中 。 把 以 上 各 项 加 以 配置 ， 即 : 


ServerLimit 
ThreadLimit 
MaxClients 
ThreadsPerChild 


至 于 将 各 参数 设 定 为 多 少 ， 基 本 上 和 prefork 的 情况 一 样 ， 都 要 在 综合 考虑 
系统 所 安 凌 的 内 存 容量 及 每 个 线程 的 内 存 消耗 量 的 基础 上 进行 计算 。 


若 要 查看 实际 在 系统 上 运行 了 多 少 条 线程 ， 可 以 在 ps 命令 上 使 用 -L 选 
项 。 正 如 在 4.1 方 中 讲 解 的 那样 ， 添 加 -L 参数 可 以 输出 NPTL 的 线程 ， 只 
要 数 数 具体 有 和 多少 条 束 OK 了 。 

在 系统 超载 的 情况 下 ， 改 变 MaxClients 前 需要 了 解 .……. 


之 前 提 到 了 “问题 只 是 在 web 服务 器 上 无 法 啊 应 的 问题 表现 得 很 明显 ,但 根 
本 原因 未 必 是 Web 服务 器 ”。 其 实 表 面 上 的 问题 就 是 MaxClients 到 达 了 上 
限 。 错 误 日 志 中 会 有 如 下 记录 : 


[wed Sep 05 17:30:43 2007] [error] server reached MaxClients setting, 
consider raising the MaxClients setting 


在 达到 MaxClients 而 不 能 再 生成 进程 、 线 程 这样 的 状态 下 ， 只 不 过 会 警 
告 “ 发 生 了 某 些 问题 ”。 虽 然 也 有 可 能 是 连接 数 过 多 造成 MaxClients 达到 上 
限 ， 但 也 有 可 能 存在 其 他 的 原因 。 


例如 ， 在 将 Apache 作为 AP 服务 右 使 用 时 ， 假 设 其 上 运行 的 应 用 程序 要 连 
接 到 数据 库 服务 器 (图 4.2.6) 。 


@ 请 求 请 求 合 因为 其 他 客户 端 耗 尽 了 
Web 服 务 器 上 的 进程 ， 
所 以 客户 端 3 不 能 进行 
连接 串 在 日 志 上 记录 
MaxClients 


@ 数据 库 超载 造成 @@ 数据 库 超载 造成 阻塞 。 不 能 向 
阻塞 。 不 能 向 客 客户 端 2 返 回应 答 


户 端 1 返回 应 答 


尽管 实际 原因 是 数据 库 超载 ， 但 表现 出 来 的 问题 却 是 
无 法 连接 Web 服务 器 


图 4.2.6 原因 为 数据 库 超载 的 情况 示例 
。 如 果 数 据 库 超 载 ， 应 用 程序 将 阻塞 等 待 来 自 数 据 库 的 应 答 
。 结果 httpd 进程 / 线程 变 为 被 阻塞 的 状态 


。 因为 被 阻塞 的 进程 / 线程 不 能 处 理 来 自 其 他 客户 端的 请 求 ， 于 是 
Apache 寻找 空闲 进程 / 线程 


。 如 果 没 有 空闲 进程 /线程 ， 则 生成 新 的 进程 / 线程 


。 如 果 数 据 库 仍旧 超载 ， 新 生成 的 进程 / 线程 也 会 在 处 理 随后 的 客户 端的 
请 求 的 过 程 中 被 阻塞 


。 最 终 MaxClients 到 达 上 限 ， 无 法 生成 新 的 进程 / 线程 
。 将 该 事件 记载 到 错误 日 志 


在 这 种 情况 下 ， 如 何 调整 Apache 配置 都 没有 意义 。 即 使 增加 MaxClients， 
未 来 在 客户 端 发 出 请 求 时 也 会 被 阻塞 ， 状 况 依然 得 不 到 改善 。 所 以 还 需要 
回 到 根本 原因 ， 和 解决 数据 库 超载 的 问题 。 


4.2.5 Keep-Alive 


除 MPM 模块 的 参数 以 外 还 有 影响 性 能 的 参数 ， 比 如 “Keep-Alive” 的 配置 。 
Keep-Alive 是 在 处 理 完 来 目 特 定 客 户 端的 请 求 之 后 暂时 你 持 连 接 ， 以 备 处 
理 来 自 相同 客户 端的 其 他 文件 的 请 求 的 功能 。 合 理 设置 后 ， 客 户 端 无 需 重 
复 连接 / 断 开 ， 仅 需 一 次 连接 就 能 下 载 多 个 文件 ， 客 户 端 /服务 器 并 发 处 理 
的 效率 将 会 显著 提高 。 


另 一 方面 ， 根 据 情 况 的 不 同 ，Keep-Alive 也 会 导致 系统 发 生 瓶 贷 。 具 体 请 
参考 2.1 市 中 有 关 反 同 代 理 的 讲解 。 


4.2.6 ”Apache 以 外 的 选择 


虽然 本 广 的 中 心 是 讲解 Apache， 但 是 市 面 上 有 很 多 开源 且 目 由 的 Web 服务 
器 。 虽 然 Apache 也 是 广泛 使 用 的 Web 服务 器 ， 但 是 并 不 意味 着 必须 使 用 
Apache ° 


Apache 的 优点 之 一 束 是 内 部 完全 模块 化 的 通用 构造 ， 具 备 高 扩展 性 。 因 
此 ， 包 含 第 三 方 模块 在 内 的 扩展 模块 的 开发 非常 繁 感 。 男 外 还 能 目 己 创建 
新 的 模块 ， 目 定义 Apache 的 运行 。 将 Apache 作为 超越 Web 服务 器 的 网 络 
服务 絮 使 用 时 ， 比 Apache 更 能 适用 于 多 种 场景 的 服务 器 并 不 多 见 。 


男 一 方面 ，Apache 的 性 能 怎么 样 呢 ? Apache 目前 采用 多 进程 / 多 线程 模 
式 。 除 此 之 外 的 网 络 服务 器 的 代表 模式 还 有 单 进程 :事件 驱动 (Single 
Process Event Driven，SPED ) 模式 。 在 SPED 模式 的 服务 器 上 ， 不 是 通过 
多 个 运行 单位 来 处 理 多 个 连接 ， 而 是 利用 系统 的 功能 ， 让 单一 进程 监控 多 
个 网 络 连接 的 输入 输出 事件 ， 并 结合 输入 输出 事件 将 处 理 快速 切换 ， 以 实 
现 高 效 的 并 发 处 理 。 


单纯 从 多 线程 和 SPED 的 结构 来 看 ， 并 没有 好 坏 之 分 。 男 一 方面 ， 以 安 效 
的 广泛 度 来 讲 ，Apache 的 确 是 最 普及 的 Web 服务 器 。 但 在 一 个 请 求 周期 
内 ， 处 理 请 求 所 需 的 CPU 计算 量 、 内 存 消 耗 量 较 大 ， 而 有 多 少 个 进程 / 线 
程 ， 就 会 相应 地 消耗 相当 大 程度 的 资源 ， 这 是 它 的 缺点 。 


lighttpd 


最 近 开源 Web 服务 器 中 比较 受 欢迎 的 是 lighttpd 3。lighttpd 具备 以 下 特 
i 


18 URL http://www.lighttpd.net/ 


。 采用 SPED ， 通 过 少量 内 存 并 发 处 理 大 量 访问 ， 处 理 速度 让 人 满意 


。 虽然 相 较 于 Apache，lighttpd 的 通用 性 较 差 ， 但 是 因为 其 单位 请 求 所 
需 的 计算 量 少 ， 可 以 降低 CPU 负载 


。 单位 进程 的 内 存 消耗 量 远 远 小 于 Apache 


。 池 盖 了 相当 于 Apache 的 核心 模块 、mod_rewrite 和 mod_proxy 模块 的 
基本 功能 


。 +** 支 持 FastCGI， 可 以 优化 用 Perl 及 PHP、Ruby 所 编写 的 Web 应 用 程 
序 ， 可 以 被 作为 AP 服务 器 使 用 


此 lighttpd 在 大 规模 并 发 环境 中 的 运行 效果 也 很 好 。Hatena 网 站 现在 已 经 
将 一 部 分 的 Apache worker 更 换 为 了 lighttpd。 


比较 lighttpd 和 Apache， 最 显著 的 差异 是 内 存 的 消耗 量 。lighttpd 无 论 有 多 
少 连 接 ， 都 能 用 一 到 几 个 进程 完成 所 有 人 处理 世 。 因 为 lighttpd 是 根据 客户 端 
数 来 增 减 进 程 / 线程 数量 的 ， 这 是 lighttpd 与 Apache 决定 性 的 差异 。 


19 使 用 select(2)/poll(2) 和 epoll 等 的 文件 描述 符 监控 系统 调用 ， 实 现 多 网 络 IO 的 并 发 处 理 。 


lighttpd 适用 于 传送 大 量 议 仿 文 件 。 在 需要 将 大 量 文件 返 回 到 大 量 客户 端 
时 ， 也 可 以 以 最 小 限度 的 资源 消耗 去 完成 。 


当然 lighttpd 也 可 以 传送 动态 的 网 页 内 容 。 由 于 lighttpd 的 使 用 相当 简单 ， 

因此 有 很 多 基于 lighttpd+FastCGI 环境 ， 来 高 速 运 行 用 脚本 语言 开发 的 Web 

应 用 程序 的 事例 。 但 是 ， 在 用 lighttpd 传送 动态 内 容 时 ， Apache+mod_perl 
(mod_php 等 ) 与 lighttpd+FastCGI 的 组 合并 没有 显著 的 性 能 差异 2。 


20 由 于 Apache 具备 丰富 的 API， 可 以 用 来 自 定义 应 用 程序 ， 因 此 笔者 经 常 使 用 Apache 。 


虽然 这 里 没有 对 lighttpd 进行 详细 讲解 ， 但 想 以 更 少 的 资源 处 理 大 量 客户 端 
的 连接 时 ， 可 以 考虑 使 用 lighttpd。 


4.3 ”MySQL 的 调 优 诀 ? 
4.3.1 MySQL 的 调 优 诀 穿 


当 数 据 库 服务 句 要 求 更 高 的 性 能 该 怎么 办 呢 ? 单刀 直入 ， 用 一 句 话 说 束 
古 “ 如 何 快速 存 取 数据 ”。 


那么 数据 库 服务 器 的 性 能 调 优 ， 也 就 是 “ 想 要 以 更 短 的 时 间 存 取 数 据 "， 需 
要 具体 考虑 什么 策略 呢 ? 这 根据 调 优 的 视角 可 以 分 为 儿 类 ， 以 下 衣 先 基于 
调 优 的 视角 进行 油 单 的 整理 。 


基于 调 优 视角 的 分 类 
昕 和 完 ， 可 以 考虑 从 以 下 几 个 视角 进行 分 类 : 
1 服务 器 方面 


2 服务 器 之 外 的 其 他 方面 
3 ”周边 系统 方面 
1 服务 器 方面 
第 一 个 是 “服务 器 方面 的 调 优 >。 说 到 服务 器 方面 的 调 优 ， 首 先 需 要 了 
解 “mysqld 的 参数 优化 ”。 特 别 是 内 存 关联 的 参数 以 及 磁盘 IO 关联 的 参数 
是 调 优 的 关键 。 
除 mysqld 的 参数 以 外 ， 还 包括 系统 方面 的 优化 ， 例 如 : 

。 对 磁盘 LO 关联 的 内 核 参数 进行 调整 

。 合理 利用 文件 系统 及 mount ( 挂 载 ) 命令 的 选项 等 
本 节 中 也 将 其 归 类 为 服务 器 方面 的 优化 。 
参数 以 外 的 其 他 方面 的 优化 ， 还 有 “分 区 技术 ” (Partitioning) 。 如 果 数 据 规 
0 
行 处 理 。 


于 是 ， 在 此 以 表 为 单位 分 割 数据 库 服务 磊 ， 或 者 将 表格 数据 以 主键 
(Primary Key) 等 为 单位 切 分 到 数据 库 服 务 器 上 。 据 此 就 可 以 将 数据 切割 


ei 缓存 ， 通 过 分 流 访 问 还 可 以 降低 单 台 服务 右 的 负 
载 。 男 一 方面 ， 由 于 需要 在 被 分 割 的 数据 库 服 务 器 集群 里 查找 出 相应 的 数 
据 以 供 处 音 ， 以 及 在 SQL 语句 层面 关系 表 将 不 能 被 关联 ， 因 此 在 应 用 程序 
方面 的 负载 会 有 所 增加 。 


2 服务 器 之 外 的 其 他 方面 
第 二 点 是 除 服 务 器 之 外 的 其 他 方面 的 优化 。 具 体 指 如 下 事项 : 
。 表 的 设计 
= 创建 合适 的 索引 
-> 根据 需要 可 能 会 进行 非 标准 化 处 理 
。SQL 的 优化 
-> 很 好 地 使 用 索引 
” 调整 表 关 联 的 顺序 、 方 法 
特别 是 SQL 的 优化 ， 由 于 部 分 执行 时 间 较 长 的 语句 可 以 通过 慢 查 询 记录 
(log-slow-queries) 找 出 ， 再 通过 MySQL 的 EXPLAIN 语句 及 相关 工具 于 
清 其 大 因 ， 所 以 优化 过 程 还 是 比较 容易 的 。 
3 周边 系统 
最 后 是 “周边 系统 的 调 优 ?。 首 先 什么 是 周边 系统 的 调 优 呢 ? 在 文章 的 开头 
提 到 了 调 优 的 目标 是 “以 更 短 的 时 间 存 取 数 据 ”。 需 要 注意 的 是 在 此 是 以 访 
问 数 据 库 服务 器 为 视点 的 ， 若 访问 周边 系统 存 取 数据 的 速度 比 访问 数据 库 
服务 器 更 快 ， 则 不 需要 特意 去 访问 数据 库 服务 器 。 
举 个 具体 的 例子 ， 在 访问 数据 的 客户 端 和 数据 库 服 务 器 之 间 增 加 
memcached 等 缓存 服务 器 ， 这 样 就 可 以 通过 访问 缓存 服务 器 来 调用 数据 ， 
而 不 用 去 访问 数据 库 服 务 器 了 。 
说 到 RDBMS 的 优化 ， 许 多 情况 下 往往 只 会 想到 SQL 语句 和 服务 器 参数 的 
优化 。 但 如 采 将 这 些 作 为 "输入 输出 数据 的 一 个 系统 ”， 将 客 尸 端 和 数据 库 
服务 器 看 作 这 个 系统 的 构成 要 素 ， 那么 就 可 以 考虑 通过 增设 缓存 服务 器 来 


， 而 并 非 改 动 具体 的 参数 。 大 家 一 定 要 具备 这 种 宏观 的 
侧 


本 章 接 下 来 要 处 理 的 内 容 


截至 目前 ， 我 们 将 优化 的 视角 分 为 了 三 类 并 分 别 进行 了 讲解 ， 下 一 阶段 将 
人 简 述 实际 的 调 优 工作 ， 即 发 现 瓶 贷 - 采取 各 种 策略 消除 恶 颁 


瓶 珊 的 原因 漠 蕊 在 各 个 地 方 。 因 此 其 诺 的 发 现 ， 并 不 是 单纯 的 “发 现 慢 的 
SQL 语句 就 行 了 ”， 最 好 先 以 上 述 三 个 视角 进行 宏观 的 监控 


里 然 这 么 说 ， 但 由 于 瓶 贷 的 产生 多 起 因 于 条 件 及 RDBMS 的 用 法 问题 ， 存 
在 各 种 不 同 的 情况 ， 不 能 具体 断定 “就 是 某 处 存在 问题 ”。 

另外 ， 在 对 数据 库 和 表 进 行 分 区 以 及 引入 缓存 服务 器 之 前 ， 需 要 优先 研究 
一 下 SQL 语句 的 结构 以 及 进行 参数 的 优化 ， 以 最 大 可 能 地 发 挥 数 据 库 服 务 
四 ， 如 果 这 样 还 不 能 解决 问题 ， 其 后 才 应 该 考虑 进行 分 区 或 引入 组 
了 服 务 器 。 


在 本 节 之 后 ， 我 们 将 继续 把 焦点 放 在 服务 器 方面 的 优化 上 ， 对 MySQL 服务 
器 (mysqld) Re 


本 章 中 所 讲述 的 MySQL 的 版 本 是 5.0.45。 
4.3.2 ”内 存 相 关 的 参数 优化 


在 有 关 MySQL 服务 器 的 优化 中 ， 十 分 重要 的 是 内 存 (缓冲 ) 相关 的 参数 ， 
下 面 介绍 以 下 两 点 


。 优化 的 要 点 


。 由 于 这 里 的 数据 库 服务 器 是 在 内 存 为 4GB 的 情况 下 进行 相应 的 配置 设 
定 的 ， 因 此 具体 数据 仅 供 参考 


缓冲 的 种 类 .…... 优 化 时 的 注意 事项 @ 


首先 需要 注意 的 地 方 是 ，MySQL 中 为 了 提高 性 能 开辟 了 暂时 储存 数据 的 内 
存 空间 ， 通 常 被 称 为 缓冲 ， 缓 冲 有 以 下 两 个 类 型 ; 


。 全 局 缓冲 (Global Buffer) 
。 线程 缓冲 (ThreadBuffer) 


所 谓 人 多 局 缓冲 ， 是 mysqld 内 部 的 唯一 一 个 缓冲 。 相 应 的 ， 线 程 绥 冲 则 是 针 
对 每 个 线程 (连接 ) ， 都 确保 一 个 缓冲 。 


优化 参数 时 ， 需 要 认识 到 全 局 缓冲 和 线程 缓冲 的 差异 。 这 是 因为 ， 如 果 给 
线程 缓 促 分 配 过 多 的 内 存 ， 那 么 一 旦 连接 增加 ， 内 存 很 快 束 会 不 足 。 


不 能 分 配 太 多 .…… 优 化 时 的 注意 事项 @ 


给 缓冲 分 配 的 内 存 越 大 ， 性 能 束 越 高 。 话 虽 如 此 ， 如 果 分 配 的 数值 超过 了 
服务 硕 的 物理 内 存 容 量 ， 造 成 频繁 访问 交换 区 ， 实 际 性 能 反而 会 降低 。 


比 起 在 MySQL 层面 进行 参数 优化 ， 在 某 些 情况 下 ， 通 过 使 用 MyISAM 的 
nn 
J] 能 。 

内 存 的 相关 参数 

内 存 的 相关 参数 如 表 4.3.1 所 示 。 


表 4.3.1 内 存 相关 的 参数 


innodb_buffer pool_size 


用 途 innoDB 缓 冲 区 ， 用 来 存放 数据 和 索引 
缓冲 类 型 全 局 缓冲 ”参考 值 512MB (一 般 设置 为 机 器 内 存 的 50%-80%) 
为 是 全 局 缓冲 ， 所 以 推荐 分 配 得 宽裕 一 些 


innodb_additional mem pool size 


用 途 innoDB 内 存 池 ， 存 放 着 各 种 内 部 使 用 的 数据 
缓冲 类 型 全 局 缓冲 “参考 值 20MB 


分 配 的 必要 。 不 足 时 会 通过 错误 日 志 发 出 ， 届 时 再 增加 也 没有 问题 
innodb_ log_buffer_size 


用 途 mmnoDB 日 志 绥 冲 区 

缓冲 类 型 全 局 缓冲 ”参考 值 16MB 

基本 上 是 8MB， 最 多 为 64MB ， 不 需要 太 大 。 缓 冲 Bufft 是 每 当 数据 库 事务 被 提交 

平 每 秒 都 会 发 生 缓存 到 磁盘 的 动作 ， 因 此 建议 将 所 需 的 其 他 参 


志文 件 ， 存 储 在 磁盘 上 。 虽 然 它 不 是 内 存 ， 但 却 是 重要 的 优化 参数 
- 参考 值 128MB 


性 能 越 高 。 详 情 请 参照 正文 


sort_buffer_size 


用 途 被 用 于 ORDER BY 和 GROUP BY 的 内 存 空间 
缓冲 类 型 线程 缓冲 ”参考 值 2MB 
由 于 是 线程 缓冲 ， 因 此 要 注意 过 度 增 加 会 导致 内 存 不 足 。 笔 者 建议 设 为 2MB 或 4MB 


read_rnd_buffer_size 


用 途 在 排序 后 读 取 结果 数据 时 使 用 的 缓冲 区 。 因 为 磁盘 IO 会 有 所 减少 ， 所 以 可 以 提高 
ORDER BY 的 性 能 
缓冲 类 型 线程 缓冲 ”参考 值 1MB 


为 这 个 也 是 线程 缓冲 ， 所 以 也 需要 注意 不 要 分 配 过 多 。 笔 者 建议 设 为 512KB~2MB 
join_buffer_size 


be | 的 表 关 联 时 使 ] 内 存 空间 


有 过 上 Tape 因此 从 性 能 提高 的 观点 上 对 该 关联 表 


冲 大 小 
人 参考 值 1MB 
性 能 ， 就 应 该 使 用 类 ， 因 此 不 需要 那么 大 的 空间 


缓存 MyISAM 的 键 (索引 ) 存 空间 

冲 关 过 全 局 缓冲 ”参考 值 256MB 

E 局 缓冲 ， 所 以 为 了 提高 性 能 可 以 分 配 多 一 些 。 如 3 K) 使 用 MyISAM， 可 
以 将 该 值 设置 得 小 一 些 ， 以 将 内 存 分 配给 其 他 参 交 


myisam,_sort_buffer_size 


用 途 MyISAM 中 以 下 情况 的 索引 排序 时 所 使 用 的 缓冲 空间 

» REPAIR TABLE 。CREATE INDEX 。ALTER INDEX 
缓冲 类 型 线程 缓冲 ”参考 值 1MB - 
因为 通常 在 语句 (DML) 中 不 大 使 用 ， 所 以 不 需要 那么 多 


下 面 对 表 4.3.1 进行 补充 说 明 。 首 先 ， 天 于 innodb_log _file_size， mysqld 在 在 

innodb_log file 存 满 时 ， 仅 将 内 存 上 更 新 的 innodb_buffer_pool 部 分 写 入 位 

盘 上 的 InnoDB 数据 文件 。 因 此 ， 如 果 只 增加 innodb_buffer_pool_size， 而 

不 同时 调整 这 个 innodb we size 的 话 ，innodb log file_size 乌 十 呐 会 洲 

et ` 得 不 频繁 地 进行 InnoDB 数据 文件 的 写 入 处 理 ， 最 终 束 会 导致 
条 


innodb_log_file_size 的 数值 要 设置 为 1MB 以 上 ，32bit 的 设备 的 情况 下 必须 
设置 为 4GB 以 下 ， 有 具体 在 MySQL AB 文档 中 有 详细 描述 。 


这 里 还 有 一 个 上 限 。 虽 然 innodb_log_file 只 设置 innodb_log _files_in_group 
的 数量 (默认 2) ， 但 要 确保 


innodb log _ file _sizexinnodb log _files_in_group 不 超过 
innodb_buffer pool_size。 


综 上 上 ， 可 以 得 出 如 下 结论 : 


1MB < innodb_log_file size < MAX_ innodb_log_file_ size < 
4GB 

innodb_buffer_pool_ size 
MAX_innodb_log_file size = 一 一 
innodb_log_files_in_group 


其 他 必须 注意 的 是 ，innodb_log_file_size 的 值 越 大 ，InnoDB 的 月 溃 恢 复 所 
需 的 时 间 就 越 长 。 


其 次 ， 这 里 也 对 表 4.3.1 中 的 key_buffer_size 稍 作 补充 说 明 。 关 于 Key 
Buffer 的 命中 率 ， 可 以 使 用 SHOW STATUS 的 数值 ， 用 下 面 的 公式 算出 : 


Key Buffer 的 命中 率 = 100- (key_reads/key_read_requestsx100) 


4.3.3 ”内 存 相 关 的 检查 工具 .……… mymemcheck 


最 后 介绍 一 下 笔者 正在 使 用 的 目 制 工具 mymemcheck。mymemcheck 可 以 基 
于 mycnf 3 有 VARIABLES 的 结 有 末 ， 进 行 以 下 三 个 方面 的 检查 


。 至 少 所 需要 的 物理 内 存 大 小 

。IA-32 Linux 中 堆 的 大 小 范围 

。innodb log file _ size 的 最 大 值 
以 上 都 是 MySQL AB 的 文档 中 所 罗列 的 事项 ， 由 于 内 存 相 关 的 参数 也 有 彼 
此 相关 的 ， 不 注意 的 话 配 置 的 数值 会 相互 矛盾 。 因 此 ， 在 变更 参数 时 ， 可 
以 使 用 该 mymemcheck 工具 确认 所 设置 的 数值 是 否 合理 


运行 结果 如 图 4.3.1 所 示 。 


$ ./mymemcheck my.cnf 


[ minimal memory | 
ref 
* THigh Performance MySQLJ, Solving Memory Bottlenecks, p125 


global_buffers 


key_buffer_size 268435456 256.000 [M] 
innodb_buffer_pool_size 536870912 512.000 [M] 
innodb_1og_buffer_size 16777216 16.000 [M] 
innodb_additional mem_pool_size 20971520 20.000 [M] 
net_buffer_length 16384 16.000 [K] 


thread_buffers 


sort_buffer_size 2097152 2.000 [M] 
myisam_sort_buffer_size 1048576 1024.000 [K] 
read_buffer_size 1048576 1024.000 [K] 
join_buffer_size 262144 256.000 [K] 
read_rnd_buffer_size 1048576 1024.000 [K] 
max_connections 250 


min_memory_needed global_buffers + (thread_buffers* max_connections ) 
843071488 + 5505024* 250 


2219327488 (2.067 [G]) 


[ 32bit Linux x86 limitation | 
ref 
* http://dev.mysql.com/doc/mysql/en/innodb-configuration.html 


* need to include read_rnd_buffer. 
* no need myisam_ sort_buffer because allocate when repair, check 
alter. 


2G > process heap 
process heap = innodb_buffer_pool + key_buffer 
+ max_connections* (sort_buffer + read_buffer + 
read_rnd_buffer) 
+ max_connections* stack_size 
= 536870912 + 268435456 
+ 250* (2097152 + 1048576 + 1048576) 
+ 250* 262144 
= 1919418368 (1.788 [6]) 


26 > 1.788 [6G] ... safe 
[ maximum size of innodb_log_file_size | 
oe http://dev.mysql.com/doc/mysql/en/innodb-start.html 
1MB < innodb_log_file_size < MAX_innodb_log_file_size < 4GB 


MAX_innodb_1log_file_size = innodb_buffer_pool_ size* 
1/innodb_log_files_in_group 


536870912* 1/2 
268435456 (256.000 [M]) 


innodb_log_file_size < MAX_innodb_log_file_size 
134217728 < 268435456 
128.000 [M] < 256.000 [M] ... safe 


图 4.3.1 mymemcheck 的 运行 实例 


第 5 章 ”高效 运行 一 一 确保 服务 的 稳 
定 提供 


5.1 服务 状态 监控 Nagios 


5.1.1 稳定 的 服务 运营 与 服务 状态 监控 


服务 状态 监控 是 稳定 的 服务 运营 所 不 可 或 缺 的 。 即 全 服务器 已 经 做 了 元 余 
的 处 理 ， 由 于 一 时 芯 名 ， 或 者 元 余 的 设备 出 现 故 障 ， 都 会 造成 很 三 重 的 情 
况 。 寿 故障 再 度 出 现 ， 服 务 就 很 有 可 能 停止 运作 。 当 系统 的 某 个 部 分 出 现 
通过 服务 状态 监控 及 时 知晓 ， 对 维持 服务 的 稳定 运行 是 很 重要 


Nagios ! 是 著名 的 开源 服务 状态 监控 工具 。 由 于 Nagios 配置 灵活 ， 因 此 在 
世界 范围 内 被 广泛 使 用 。 


1 URL http://www.nagios.org/ 


5.1.2 ”状态 监控 的 种 类 


通常 情况 下 ， 服 务 状 态 监 控 并 不 仅仅 古 监 挥 服务 的 某 个 功能 是 否 正常 运 
行 ， 还 包含 确认 负载 状态 等 方面 。 服 务 的 状态 监控 可 分 为 以 下 二 类 : 


1 主机 或 服务 的 运行 状态 等 网 络 服务 存活 状态 的 监控 
2 主机 的 CPU 占用 率 或 服务 的 吞吐 量 等 负载 状态 的 监控 


3 在 一 段 时 间 内 (一 个 月 或 是 一 年 ) 服务 正常 运行 的 时 间 所 占 的 比例 ， 即 可 
用 率 的 统计 


1 存活 状态 的 监控 
存活 状态 的 监控 是 指 确 认 某 个 功能 是 否 可 用 ， 有 是 基本 的 状态 监控 操作 。 


比如 ， 通 过 使 用 ping 指令 确认 主机 是 否 在 正常 运作 、 服 务 的 TCP 连接 是 
售 可 用 、 目标 服务 器 是 否 能 够 进行 基本 的 协议 处 理 ， 从 而 检查 服务 状态 是 


TT 


如 果 通 过 ping 指令 没有 接 到 目标 服务 器 的 应 答 ， 或 者 TCP 连接 不 可 用 、 
无 法 进行 基本 的 协议 处 理 ， 就 能 断定 目标 主机 或 服务 已 经 处 于 不 可 用 的 状 
态 ， 这 时 监控 系统 会 及 时 通知 运 维 人 员 。 运 维 人 员 接 到 通知 后 ， 会 重启 主 
机 或 服务 ， 或 启用 事先 准备 好 的 备用 服务 器 等 ， 以 及 时 解决 故障 。 


在 被 监控 的 服务 已 经 进行 了 元 余 处 理 的 情况 下 ， 状 态 监控 就 并 不 仅 针对 提 
供 服务 的 主机 ， 通 过 同时 监控 经 过 见 余 处 理 的 VIP (虚拟 IP 地 址 ) ， 就 可 
以 从 最 终 用 户 的 视角 来 判断 服务 是 否 还 在 正常 运作 。 这 样 当 故障 发 生 时 ， 
忠 能 轻易 判断 出 经 过 见 余 处 理 的 主机 的 某 处 故障 会 不 会 影响 到 服务 ， 是 否 
会 对 服务 的 正常 提供 造成 影响 。 


在 图 5.1.1 的 例子 中 ， 即 便服 务 器 B 出 现 了 故障 ， 负 载 均 衡器 也 会 自动 将 请 
求 切 换 到 服务 器 A， 服 务 丝毫 不 受 影响 。 在 这 样 的 架构 下 ， 不 仅 要 监控 服 
务 器 A 与 服务 器 B， 还 需要 将 负载 均衡 器 的 VIP 也 列 为 监控 对 象 ， 据 此 来 
确认 是 否 会 对 服务 造成 影响 ， 并 判断 故障 的 紧急 程度 。 


ae 一 
Eco 


~ 
本 
- 
Pd 


图 5.1.1 ”经 过 元 余 处 理 的 情况 下 的 监控 
2 负载 状态 的 监控 


负载 状态 的 监控 是 指 检查 是 否 存在 一 些 情况 “ 昌 不 会 令 服务 停止 运作 ， 但 会 
对 服务 的 运行 带 来 过 大 压力 ”， 是 一 种 非常 实用 的 监控 。 


为 了 监控 负载 状态 ， 可 以 从 统计 目标 主机 的 CPU 负载 、 当 前 系统 中 等 符 进 
程 的 数量 等 信息 着 手 ， 判 断 目 标 主机 的 负载 是 否 已 经 达到 了 异常 的 程度 ?。 
另外 ， 还 可 以 统计 在 提供 服务 的 进程 的 请 求 队列 中 等 待 的 请 求 数 ， 以 及 请 
求 的 啊 应 时 间 ， 来 监控 在 所 允许 的 服务 等 级 的 情况 下 ， 回 该 服务 的 进程 发 
出 的 请 求 是 否 能 够 得 到 处 理 。 若 是 出 现 了 等 待 进程 数 异常 多 ， 或 响应 时 间 
过 长 的 情况 ， 那 就 能 断定 主机 或 服务 已 经 出 现 了 负载 过 高 的 问题 。 

?关于 统计 负载 ， 在 4.1 节 有 详细 说 明 。 

负载 过 高 的 原因 可 分 为 下 列 三 种 情况 : 

@ Dos 攻击 等 造成 的 异常 请 求 导致 负载 过 高 

@ Slashdot 效应 3 等 造成 的 突 发 请 求 导致 负载 过 高 


Re 
增 的 情况 。 


纯粹 因为 服务 太 受 欢迎 ， 请 求 数 平稳 提升 而 导致 负载 过 高 


因此 ， 负 载 过 高 的 应 付 办 法 也 比较 复杂 ， 需 要 针对 各 种 不 同 的 负载 问题 ， 
找到 具体 的 解决 方法 。 例 如 ， 在 @ 的 情况 下 ， 要 提前 预知 流量 异常 的 情 
况 ， 并 及 时 截 拦 请 求 ; 在 @ 的 情况 下 ， 需 要 设置 高 速 缓存 ， 而 在 像 @ 那样 
人 


通过 监控 负载 状态 ， 能 够 检测 出 "服务 能 够 使 用 ， 但 是 运行 较 慢 ?” 的 情况 ， 
但 这 种 情况 单纯 通过 存活 状态 的 监控 是 检测 不 出 来 的 。 因 此 需要 对 这 种 情 
况 加 以 应 对 ， 以 维持 展 好 的 系统 啊 应 。 


3 可 用 率 的 统计 


可 用 率 的 统计 与 上 述 两 种 监控 不 同 ， 它 是 通过 分 析 数 周 甚至 数 月 间 某 方面 
的 监控 结 有 末 ， 发 现 并 改善 系统 在 长 期 运行 中 存在 的 问题 。 

通过 存活 状态 的 监控 和 负载 状态 的 监控 ， 可 以 得 知 服务 的 具体 运作 情况 以 
及 负载 情况 ， 从 而 客观 地 分 析 系 统 的 哪个 部 分 容易 出 现 问题 ， 系 统 整体 的 
可 用 率 是 怎样 的 等 。 


基于 这 一 分 析 ， 我 们 束 能 够 掌握 特定 主机 的 不 稳定 性 ， 或 者 了 解 到 系统 架 
构 原 本 就 是 不 稳定 的 ， 并 据 此 战略 性 地 考量 整个 系统 的 元 余 状 况 、 运 维 人 


员 的 维护 习惯 等 。 
5.1.3 Nasgios 概述 


Nagios 是 具有 以 上 介绍 的 监控 和 统计 功能 的 代表 性 的 监控 工具 。Nagios 可 
以 通过 ping 指 令 测 试 网 络 服务 的 存活 状态 通过 TCP 连接 进行 各 种 服务 
的 监控 ， 通 过 SNMP (Simple Network Management Protocol) 进行 主机 的 状 
态 监控 ， 甚 至 还 可 以 通过 插件 进行 任意 方式 的 监控 。 男 外 在 监控 结果 的 通 
知 方面 ， 除 了 基本 的 邮件 通知 方式 外 ， 还 可 以 任意 设 定 其 他 方式 。 而 且 通 
过 Web 接口 ， 能 方便 地 参考 监控 目标 的 状态 ， 还 能 控制 监控 的 停止 或 开 


始 。 
我 们 以 本 和 写作 时 (2008 年 ) 的 最 新 版 本 Nagios 3.0.2 为 基础 来 说 明 。 
安装 Nagios 


由 于 Red Hat Enterprise Linux 5 及 CentOS 5 的 标准 软件 包 内 没有 包含 
Nagios， 因 此 请 从 下 面 的 官方 网 址 下 载 软件 包 来 安装 。 


URL http://www.nagios.org/ 
将 Nagios 安装 完成 后 ， 还 可 以 安装 “Official Nagios Plugins” 脚 本 以 监控 更 多 


的 对 象 。Official Nagios Plugins 中 还 有 其 他 的 环境 依赖 包 ， 需 要 时 可 根据 情 
况 添 加 安装 。 本 节 的 说 明 均 以 在 CentOS 5.0 系统 中 进行 的 操作 为 准 。 


5.1.4 ”Nagios 的 配置 


由 于 Nagios 的 配置 更 具 弹 性 ， 因 此 配置 起 来 也 稍微 有 些 复杂 。 可 以 参考 安 
闭路 径 内 的 示例 配置 文件 来 进行 配置 。 


首先 ， 配 置 Nagios 所 必需 的 基本 概念 请 参考 表 5.1.1。 接 下 来 ， 我 们 对 表 
5.1.1 中 的 主要 概念 进行 一 些 说 明 。 


表 5.5.1 Nagios 的 基本 概念 


服务 器 或 路 由 器 等 网 络 上 的 基本 的 物理 元 素 ， 即 主机 


将 多 个 主机 进行 分 组 ， 每 组 至 少 拥 有 一 个 主机 。 可 以 以 主机 组 为 单 他 
指定 各 主机 的 事件 (主机 故障 、 恢复 等 ) 的 通知 对 象 


机 上 所 运行 的 服务 。 该 服务 不 仅 文 持 POP 及 HTTP 等 功能 
引 ping 响 应 及 空余 的 磁盘 容量 等 


i 将 一 个 以 上 的 服务 进行 分 类 ， 以 方便 显 


定义 Nagios 中 的 各 种 事件 的 通知 对 象 (contact， 即 通 


contactgroup | 将 多 个 通知 对 象 进行 分 组 。 主 机 组 定 的 通知 对 象 就 是 通知 对 
; “220 象 组 
组 


在 多 个 主机 及 服务 的 设 定 存在 公共 部 分 的 情况 下 ， 可 以 通过 使 用 模 
简化 公共 部 分 的 设 定 ， 让 设 定 的 参数 列表 更 加 简洁 


配置 文件 


在 下 面 的 解说 中 ， 我 们 假设 在 安装 Nagios 3.0.2 的 同时 ， 还 一 并 安装 
“nagios.cfg”“commands.cfg”“]localhost.cfg” 等 配置 文件 。 


配置 文件 是 在 多 个 扩展 名 为 cfg 的 文件 中 存储 的 ， 这 么 设计 是 为 了 方便 在 别 
的 文件 中 纶 套 读 取 这 些 配置 项 目 。 随 独 主 机 数 的 增加 ， 配 置 文件 也 会 变 得 
越 来 越 庞大 ， 为 了 查阅 方便 ， 可 以 将 配置 文件 进行 分 割 。 


host ...... 主机 的 配置 

通过 host 对 需要 监控 的 主机 进行 必要 的 配置 。 由 于 通过 host 设 定 的 项 目 多 

i 并 且 这 些 设置 项 目 在 多 个 主机 中 存在 很 多 共同 之 处 ， 所 以 建议 使 
时 O 


代码 清单 5.1.1 中 的 例子 是 ， 首 移 定 义 了 generic-host 的 模版 ， 然 后 基于 该 
模版 定义 了 主机 localhost 。 


各 配置 项 目 在 代码 清单 5.1.1 中 的 注释 中 有 简单 的 说 明 ， 接 下 来 对 重要 的 配 
置 项 目 进行 补充 说 明 。 


。 flap_detection_enabled 


发 生 故 障 和 修复 故障 这 两 种 行为 频繁 地 重复 出 现 ， 这 种 现象 就 称 之 为 
Flapping。 一 旦 Flapping 发 生 ， 束 会 涌 来 大量 的 通知 信息 ， 此 时 别 的 有 
用 的 通知 信息 就 可 能 会 被 淹没 。 将 该 配置 参数 设置 为 有 效 时 ， 如 果 监 
控 出 了 Flapping， 束 会 只 发 出 开始 和 结束 的 通知 


max_check_attempts 


当 检测 失败 的 次 数 超 过 这 里 指定 的 次 数 时 ， 束 认为 主机 发 生 了 故障 ， 


并 发 出 通知 


notification_period 


发 送 通 知 的 时 间 段 。localhost.cfg 中 有 “24x7”(24 小 

时 ) 、“workhours” (工作 日 上 午 9 时 到 下 午 5 

时 ) 、“nonworkhours”《〈 工 作 日 上 午 9 时 到 下 午 5 时 以 外 的 时 
间 ) 、“none” (没有 对 应 的 时 间 段 ) 这 四 种 定义 方式 。 一 般 使 
用 “24x7” 的 配置 方法 


。 check command 


监控 时 使 用 的 命令 。 配 置 例子 中 指定 的 check-host-alive 是 基于 通过 发 
出 ping 对 主机 进行 监控 的 check-ping 命令 的 命令 。 默 认 的 配置 是 
如 有 果 5000 时 秒 以 内 没有 做 出 反映 ， 束 会 变 成 CRITICAL 状态 
SerVice ...... 服务 的 定义 


service 定义 了 目前 主机 上 所 运行 的 服务 (代码 清单 5.1.1) 。 和 host 一 样 ， 
也 可 以 使 用 模版 功能 使 描述 更 加 简洁 。 


代码 清单 5.1.1 host 的 配置 案例 


define host{ 
name generic-host 。 模 版 


notifications_enabled 1 启 主机 的 通知 

event_handler_enabled 1 启 主 机 的 事件 处 理 程 序 (Event Handler) 
flap_detection_enabled 1 -监控 Flapping 
failure_prediction_enabled 1 “开启 故障 预 判 

process_perf_data 1 < 处理 有 关 性 能 的 信息 


E 启 后 依然 保留 状态 信息 
E 启 后 依然 保留 状态 以 外 的 信息 
< 在 所 有 时 间 段 都 会 通知 


retain_status_information 1 

retain_nonstatus_information 1 : 
2 
0 


notification_period 
register 


} 
define host{ 


name linux-server < 模板 4 
use generic-host < 指定 所 使 用 的 模板 
check_period 24x7 “在 所 有 时 间 段 都 会 监控 
max_check_attempts 10 +。 规定 最 多 监控 10 次 
check_command check-host-alive < 监控 用 的 命令 
notification_period workhours ~ 只 在 工作 日 白天 通知 
notification interval 120 -通知 间隔 
notification_options d, ur =- 通知 的 状态 
contact_groups admins < 通知 对 象 所 在 的 contactgroup 
register 0 -这 里 默认 即 可 
} 

define host{ 
use linux-server = 指定 使 用 的 模板 
host_name ”localhost < 主机 名 
alias Localhost Server 别名 
address 192.168.0.1 ”IP 地 址 


} 


command ...... 命令 的 定义 


可 以 用 command 定义 命令 。 在 代码 清单 5.1.2 (service 的 配置 案例 ) 中 ， 
用 check_ping 对 服务 进行 了 监控 。 命 令 名 (check_ping ) 后 面 

的 "1100.0,20%!1500.0,60%" 是 是 该 命令 的 参数 ， 用 ! 隔 开 。 这 

里 "100.0,20%" 对 应 了 $ARG1$ ，"500.0,60%" 对 应 了 $ARG2$。 


这 个 命令 的 默认 设 定 如 代码 清单 5.1.3 所 示 。 可 以 使 用 -w 参数 来 定义 发 生 
WARNING 的 条 件 ， 使 用 -c 参数 来 指定 CRITICAL 的 条 件 。 在 代码 清单 
5.1.2 的 情况 下 ， 若 出 现 100ms 以 上 的 延迟 或 者 20% 以 上 的 丢 包 的 话 ， 职 会 
发 生 WARNING ; 车 出 现 500ms 以 上 的 延迟 或 者 60% 以 上 的 丢 包 的 话 ， 
就 会 发 生 CRITICAL 。 


代码 清单 5.1.2 service 的 配置 案例 


define servicef{ 


name generic-service < 模板 4 
active_checks_enabled 1 -启动 主动 监控 
passive_checks_enabled 1 -启动 被 动 监控 
parallelize_check 1 -在 主动 监控 中 启动 并 行 监控 


1 通知 结果 
新 (freshness 监 控 ) 


obsess_over_service 1 
check_freshness 0 
notifications_enabled 1 
event_handler_enabled 1 
flap_detection_enabled 1 < 启动 拌 动 监控 

1 

1 

1 

1 


failure_prediction_enabled + 开启 故障 预 判 
process_perf_data “处 理 有 关 性 能 的 信息 
retain status_information < 重启 后 依然 保留 状态 信息 
retain_nonstatus_information 重启 后 依然 保留 状态 以 外 的 信息 
is_volatile 0 


register 9 -这 里 默认 即 可 

} 

define Servicet{ 
name local-service -~ 模板 名 
use generic-service -指定 所 使 用 的 模板 
check_period 24x7 -在 所 有 时 间 段 都 会 监控 
max_check_attempts 4 -最 多 尝试 4 次 监控 
normal_check_interval 5 
retry_check_interval 1 
contact_groups admin 
notification_options w, U, cr “通知 的 状态 
notification_interval 60 -通知 间隔 
notification_period 24x7 
register 0 

} 


define servicet{ 
use local-service 指定 所 使 用 的 模板 
host_name localhost ”< 所 使 用 的 主机 


> 


service_description PING < 服务 名 
check_command check_ping!100.0,20%!500.0,60% 监控 命令 


代码 清单 5.1.3”command 的 配置 案例 


# 'check_ping' command definition 
define command{ 

command_name check_ping 

command_line $USER1$/check_ping -H $HOSTADDRESS$ -w $ARG1$ - 
Cc $ARG2$ 


} 


contact 与 contactgroup ...... 通知 对 象 和 通知 对 象 组 


可 以 用 contact 定义 通知 对 象 ， 用 contactgroup 定义 通知 对 象 组 (代码 清单 
5.1.4) 。 通 知 通常 都 是 通过 指定 通知 对 象 组 进行 ， 因 此 最 少 要 有 一 个 通知 
对 象 组 。 

可 以 使 用 service_notification_commands 命令 来 处 理 服 务 相 关 的 通知 ， 用 
host_notification_commands 命令 处 理 主 机 相关 的 通知 。 代 人 码 清单 5.1.4 是 配 
置 邮件 通知 的 实例 。 


代码 清单 5.1.4 ”contact 及 contactgroup 的 配置 案例 


define contact{ 


contact_name nagios-admin -通知 对 象 名 
alias Nagios Admin < 通知 对 象 的 别名 
service_ notification period 24x7 -~ 处理 服 务 通知 的 时 间 段 
host_notification _period 24x7 -~ 处理 主 机 通知 的 时 间 段 
service_notification_options ”w,u,c,r -服务 通知 的 事件 类 型 
host_notification_options d,r < 主机 通知 的 事件 类 型 
service_notification _commands notify-by-email < 服务 的 通知 命令 
host_notification commands host-notify-by-email -主机 的 通知 命令 
email nagios-admin@localhost 。 通 知 对 象 的 邮箱 地 
址 
} 
define contactgroupt{ 
contactgroup_name admins < 通知 对 象 组 的 名 字 
alias Nagios Administrators < 通知 对 象 组 的 别名 
members nagios-admin <。 该 通知 对 象 组 中 所 包含 的 通知 对 象 
} 
配置 的 测试 


更 改 Nagios 的 配置 的 时 候 ， 可 以 用 以 下 命令 让 配置 立刻 生效 : 


/etc/init.d/nagios reload 


假设 配置 中 存在 语法 错误 等 问题 ， 执 行 以 上 命令 时 将 会 输出 这 些 错误 信 


息 。 可 以 根据 情况 对 配置 文件 进行 恰当 的 修正 。 
5.1.5 ”Web 管理 界面 


Nagios 拥有 强大 的 ， 管理 界面 ， 


还 可 以 暂停 监控 等 进行 行 荣 种 程度 的 控制 
菜单 的 内 容 在 表 5.1.2 中 进行 
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Host Detail “| 通过 浏览 主机 的 详情 ， 可 以 了 解 该 主机 是 否 已 经 遭遇 问题 
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列 出 各 主机 组 


类 似 Hostgroup Overview， 以 表格 的 形式 列 出 ， 方 便 在 故障 时 特定 到 具体 
的 服务 (图 5.1.3) 
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[06-16-2008 22-29-56] SERVICE ALERT: pcahhostRoot Parttion. WARNING HARD,4,DISK WARNNG - free space: /735 MB (20% inode=77%)} 
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106-16-2005 22-25-37] SERVICE ALERT: bcahost HTTPWARNING;:SOFT; 1HTTP WARNING: HTTP/1.1 403 Forbidden 
{06-16-2008 22-24-25] Nagios 302 startng.. (PD=10303) 
(06-16-2008 22-24-23] Caught SIGTERM, shutting down... 

GO (05-16-2008 22723.41] Nagios 3.0.2 starting.. . (PD=10236) 


图 5.1.4 Nagios 的 Alert History 界面 


5.1.6 Nagios 的 基本 使 用 方法 


鉴于 Nagios 的 配置 极 具 弹性 化 ， 可 能 不 太 容 易 上 手 。 这 里 我 们 以 网 络 服务 
亏 的 监控 为 例 ， 介 绍 一 下 Nagios 的 基本 使 用 方法 。 


主机 和 服务 的 定义 


下 5 运作 服务 的 主机 5.1.5) 。 其 次 ， 针 对 各 个 服务 
在 主机 组 中 进行 分 配 ， 对 每 个 主机 组 进行 监控 。 


增加 的 服务 有 两 种 : 整个 服务 器 上 共通 的 服务 ， 以 及 与 各 个 服务 器 的 工作 
0 器 中 共 有 的 服务 时 ， 可 以 使 用 check_ 人 
控 主机 的 运行 状态 ， 通 过 check_snmp 命令 确认 磁盘 的 剩余 空间 ， 
0 


Apache 之 类 的 Web 服务 絮 的 情况 下 ， 可 以 使 用 check_http ; MySQL 服 
务 絮 的 情况 下 ， 可 以 使 用 check_mysql 命令 。Official Nagios Plugins 中 包 
仿 T 了 check_mysql 命令 。 


代码 清单 5.1.5 主机 与 服务 的 配置 案例 


define command{ 

command_name check_mysql 

command_line $USER1$/check_mysql] -H $HSTADDRESS$ -U $ARG1$ -p 
$ARG2$ -P $ARG3$ 
} 


define host{ 
USe linux-server 
host_name databaseserver1I 
alias databaseserver1I 
address 192 .168.0.100 


define hostgroup { 
hostgroup_name database-servers 
alias Database Servers 
members databaseserver1 


} 


define servicef{ 
use http-service 
hostgroup_name database-servers 
service_description MySQL 
check_command check_mysqlinagios!nagios!3306 


} 


通知 


根据 运行 监控 ， 当 发 现 异常 或 警告 时 ， 尽 可 能 迅速 地 通知 管理 者 进行 应 对 
征 非常 必要 的 。 作为 实现 这 喘 工 作 的 基本 功能 需要 发 关中 党 和 警告 内 容 


的 邮件 。 因 为 这 里 可 以 启动 任意 命令 ， 所 以 根据 所 安装 的 命令 情况 ， 有 时 
还 需要 向 IRC、IM 等 发 送 通知 。 


举例 来 说 ， 假设 所 首要 失 攻 车 通 全 发 生生 个 运 维和 员 的 手机 上 ， 还 要 给 
IRC 发 送 通知 。IRC 主要 被 用 于 共享 应 对 故障 时 的 信息 ， 通 过 向 IRC 中 发 
送 Nagios 的 通知 信息 ， 可 以 很 好 地 把 握 发 生 复 杂 故 障 时 的 状况 。 


邮件 是 发 送 Nagios 故障 通知 的 基本 方式 。 故 障 一 旦 发 生 ， 如 图 5.1.5 所 
示 的 邮件 就 会 被 发 送 。 默 认 的 配置 是 主机 的 情况 下 使 用 host - 
notify-by-email 命令 服务 环境 的 情况 下 使 用 notify-by- 
email 命令 。 各 种 命令 的 配置 实例 请 参阅 代码 清单 5.1.6 。 


图 5.1.5 ”Nagios 的 通知 邮件 示例 


From: nagios@example.com 
Subject: CRITICAL 1011/http_service 
To: maintenance@example.com 

火炎 火炎 大 Nagios 类 火炎 火炎 
Notification Type: PROBLEM 
Service: http_service 

Host: 1011 

Address: 192.168.1.11 

State: CRITICAL 

Date/Time: 02-08-2008 12:37:51 
Additional Info: 


(Service Check Timed Out) 


代码 清单 5.1.6 ”邮件 通知 命令 的 配置 


# 'host-notify-by-email' command definition 
define command{ 

command_name host-notify-by-email 

command_line /usr/bin/printf "“%b" "*****Nagios *****\nNn\ 
nNotification Type: $NOTIFICATIONTYPE$\NnHost: $HOSTNAME$\nState: 
$HOSTSTATE$\nAddress: $HOSTADDRESS$AnInfo: $HOSTOUTPUT$\Nn\nDate/ 


Time: $LONGDATETIME$\n" | /bin/mail -s "$HOSTSTATE$ $HOSTNAMES$!" 
$CONTACTEMAILS$ 


} 


# 'notify-by-email' command definition 
define command{ 

command_name notify-by-email 

command_line /usr/bin/printf "%b" "***** Nagios *****\nN\ 
nNotification Type: $NOTIFICATIONTYPE$\Nn\nService: $SERVICEDESCS$\ 
nHost: $HOSTALIAS$\nAddress: $HOSTADDRESS$\nState: $SERVICESTATES$\ 
n\nDate/Time: $LONGDATETIME$\Nn\nAdditional Info:\n\ 
n$SERVICEOUTPUT$" | /bin/mail -s 
" $SERVICESTATE$ $HOSTALIAS$/$SERVICEDESC$ " $CONTACTEMAILS$ 

} 


IRC 


在 Hatena 网 站 的 架构 中 ， 除 邮件 的 方式 外 ， 还 可 以 同 IRC 的 相应 频道 


发 出 警告 。 当 故障 发 生 的 时 候 ， 管 理 员 需要 在 考虑 应 对 方法 的 同时 ， 
与 多 方 联络 进行 沟通 。 在 这 种 情况 下 ， 随 时 掌握 不 断 变化 的 服务 器 的 
状态 并 共享 信息 ， 这 样 才 可 以 有 效 地 应 对 故障 。 而 且 ， 当 发 生 影响 范 
因 大 的 故障 时 ， 使 用 邮件 的 方式 束 会 造成 大 量 邮 件 的 发 送 ， 因 此 邮件 
监控 方式 的 直观 性 可 能 会 受到 影响 。 此 时 ， 使 用 IRC 的 方式 ， 通 过 对 
IRC 的 频道 日 志 进 行 确认 ， 丈 能够 完全 掌握 全 部 状况 。 


在 使 用 IRC 的 方式 传递 信息 时 ， 需 要 准备 IRC 服务 器 、IRC 消息 机 器 
人 、 回 消息 机 妖 人 传递 信息 的 客户 端 这 三 者 。IRC 服务 器 使 用 了 标准 
的 ircd ; IRC 机 如 人 使 用 名 为 Kwiki::Notify::irc 的 CPAN 模块 ， 在 该 模 
块 中 包含 名 为 “notify-irc.pJ* 的 消息 机 如 人 ; 客户 端 使 用 了 将 同一 模块 的 
Kwiki::Notify::IRC.pm 作为 单一 脚本 来 运行 ， 这 里 也 使 用 到 

了 “notify_irc.pl” (代码 清单 5.1.7、 代 码 清单 5.1.8) 


代码 清单 5.1.7 使 用 notify_irc.pl 所 需 的 设 定 


define contact{ 
contact_name irc 
alias irc-bot 
email test@example.com 
service_notification_period 24x7 
host_notification_period 24x7 
service_notification_options w,u,c,r 
host_notification_options d,u,r 
service_notification_commands notify-irc 
host_notification_commands host-notify-irc 


} 


# 'notify-by-irc' command definition 


define command{ 

command_name notify-irc 

command_line $USER1$/notify_irc.pl "$SERVICESTATE$ $HOSTALIASS$ 
/$SERVICEDESC$($HOSTNAME$)" 


# 'host-notify-by-irc' command definition 
define command{ 
command_name host-notify-irc 
command_line $USER1$/notify_irc.pl "$SERVICESTATES$ 
$HOSTALIASS$ ( $HOSTNAMES$ )" 
} 


代码 清单 5.1.8 notify_irc.pl 


#!/UusSr/bin/perl 

use strict; 

USe warnings; 

USe POE: :Component::IKC: :ClientLite; 
my $message = shift; 


my $remote = POE::Component: :IKC::ClientLite::create_ikc client( 
port => 9999, 
ip => 'localhost', 
name => "Nagios$$", 
timeout => 5, 
) or die "Couldn't create IRC connection!",; 
$remote->post('notify_irc/update', $message); 
exit 0O; 


5.1.7 ”实用 的 使 用 方法 
本 节 将 要 介绍 测定 可 用 率 及 独立 插件 等 Nagios 的 使 用 方法 。 
可 用 率 的 测定 


要 测定 可 用 率 ， 首 先 要 能 够 检测 服务 的 运行 。 基 本 做 法 是 ， 使 用 服务 的 全 
局 卫 地 址 定义 主机 ， 然 后 再 定义 作为 测定 对 象 的 服务 。 例 如 ， 测 定 
http://www.hatena.ne.jp/ 的 可 用 率 的 Nagios 配置 就 如 代码 清单 
5.1.9 所 示 。check_vhost 命令 可 以 通过 使 用 check_http 命令 ， 在 
FQDN (Fully Qualified Domain Name， 完 全 限定 域名 ) 中 指定 相应 域名 ， 从 
而 来 指定 任意 服务 器 。 


返 下 来 ， 将 可 用 率 记 录 为 图 表 化 的 形式 。 代 码 清 单 5.1.10 是 Hatena 的 分 析 

脚本 ， 是 在 Nagios 的 Web 管理 界面 中 截取 的 。 该 脚本 每 日 运行 一 次 ， 这 样 

i 
,| 口 2 o 


代码 清单 5.1.9 ”测定 可 用 率 的 配置 


define service { 
use generic-service 
host_name hatena-www.hatena.ne.jp 
service_description hatena-www 
check_command check_vhost'!www.hatena.ne.jp!'/ 


} 


define host 区 
USe generic-host 
host_name hatena-www.hatena.ne.jp 
address 59.106.108.86 
alias hatena-question 


} 


# 'check_vhost' command definition 
define command{ 
command_name check_vhost 
command_line $USER1$/check_http -H $ARG1$ -u $ARG2$ -t 120 


} 


代码 清单 5.1.10 将 可 用 率 图 表 化 的 脚本 


#1!/usr/bin/env ruby 

require 'rubygems' 

require 'hatena/api/graph' 

require 'hpricot' 

require 'pathname' 

root = Pathname.new(__FILE ).parent 

require root.parent.join('lib/hatena_consts') 


targets = [ 
{ :host => "hatena-a.hatena.ne.jp", 
:Service => "hatena-antenna", 
:id => "hatenaantenna", 
:graphname => 'availability' }, 


] 


targets.each do |target| 
cmd = "curl 'http://192.168.0.1/nagios/cgi-bin/avail.cgi?host=#{t 
arget[:host]}&service=#{target[:servicel]}&assumeinitialstates=yese& 


assumestateretention=yes&assumestatesduringnotrunning=yes&includes 
oftstates=no&initialassumedhoststate=0&initialassumedservicestate= 
OQ&timeperiod=last31days'" 

body = ‘#{cmd}. 


graphname = target[:graphname] 
count = Hpricot(body).search('td.serviceOK').]last.innerText.to_f 


g = Hatena::API::Graph.new(target[:id], HatenaConsts: :HATENA_PASSWD ) 
puts "#{target[:host]}/#{target[:service]} #{target[:id]}, 
#{graphname}, #{count}" 
g.post_data(graphname, :value => count) 
end 
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图 5.1.6 可 用 率 图 表 (使 用 Hatena Graph 制作 ) 
独立 插件 
Nagios 中 具备 了 很 多 监控 用 的 命令 ， 但 却 无 法 监控 未 啊 应 的 服务 状态 或 特 


殊 的 硬件 状态 等 。 这 种 情况 下 有 三 种 方法 : 使 用 NRPE (Nagios Remote 
Plugin Executor) 、 使 用 SNMP、 使 用 独立 插件 。 


使 用 NRPE 可 以 便捷 地 加 入 监控 对 象 ， 但 是 需要 在 每 个 服务 器 中 给 Nagios 
确立 新 的 进程 ， 因 此 Hatena 网 站 中 就 没有 使 用 这 个 办 法 。 而 是 在 像 MySQL 
那样 可 以 进行 远程 访问 的 情况 下 ， 使 用 独立 插件 进行 监控 ;反之 当 远程 主 


机 不 能 访问 时 ， 则 通过 net-snmp 经 由 SNMP 进行 监 探 。 


下 面 介绍 三 个 独立 插件 的 示例 ， 即 “MySQL 同步 监控 ”“MySQL 进程 


探 ”memcached 监控 ”了 。 
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5 关于 这 三 个 独立 揪 介 


F check_mysqlrep.sh ~ check_mysql_process.sh 、 check_memcached.sh, 请 参考 本 


书 最 后 的 补充 信息 


MySQL 同步 监控 ..….. check_mysqlrep.sh 


日 二 


i 控 MySQL 同步 是 否 正确 运行 (代码 清单 5.1.11、 代 码 清单 

5.1.12) 。 该 脚本 对 MySQL 服务 使 用 了 show slave status 命令 ， 
。 一旦 发 生 错误 停止 ， 就 会 发 出 相应 的 错误 
通知 。 


代码 清单 5.1.11 部 署 check_mysqlrep.sh 所 需 的 配置 


# 'check_mysqlrep' 
define command{ 
command_name check_mysqlrep 
command_line $USER1$/check_mysqlrep.sh -H $HOSTADDRESS$ -u $ARG1$ 
-p $ARG2$ -P $ARG3$ 
} 


代码 清单 5.1.12 check_mysqlrep.sh (摘录 ) 


status= $mysqlpath/mysql -u $user -p$pass -P $port -h $host -e 
'show slave status\G' 2>&1. 
if [ $? -gt 0 | 
then 
echo $status | head -1 
exit $STATE_CRITICAL 
fi 


badcount= echo $status | grep Running | grep No | wc -1.，; 
lasterror= echo $status | grep Last_error. 
IFS=$_IFS_OLD 


if [ $badcount -gt 0 ]; then 
echo "NG: $lasterror" 


exit $STATE_CRITICAL 
else 

echo 'OK' 

exit $STATE_OK 
fi 
exit $STATE UNKNOWN 


MySQL 进程 数 监控 ..………. check_mysql_process.sh 


对 MySQL 正在 处 理 的 查询 数 (进程 数 ) 进行 监控 的 脚本 (代码 清单 
5.1.13) 。 在 这 个 脚本 中 ， 通 过 向 MySQL 服务 器 发 出 show 
processlist 命令 ， 查 看 MySQL 服务 器 正在 处 理 的 进程 数 ， 另 外 在 
查看 进程 数 的 时 候 也 算 进 了 sleep 状态 的 进程 。 


代码 清单 5.1.13 check_mysql_process.sh (摘录 ) 


processcount= $mysqlpath/mysql -u $user -p$pass -P $port -h $host 
-BNe 'show processlist' | awk '{print $5}' | grep -v Sleep | wc - 
1 ; 


echo "processcount: $processcount" 

If [ $processcount -ge $crit ]; then 
exit $STATE_CRITICAL 

elif [ $processcount -ge $warn ]; then 
exit $STATE_ WARNING 

else 
exit $STATE_OK 

fi 

exit $STATE_UNKNOWN 


memcached 的 监控 ...... check_ memcached 


监控 在 内 存 中 运行 的 缓冲 工具 memcached 是 否 正 常 运行 (代码 清单 
5.1.14) 。 该 脚本 发 布 在 Ian Zilbo 的 主页 $6 上。 在 该 脚本 中 ， 连 接 指定 
的 memcached 服务 器 ， 来 确认 是 否 可 以 正常 地 设 定 或 读 取 数值 。 


代码 清单 5.1.14 check_memcached (摘录 ) 


my $memd = new Cache: :Memcached { 
'servers' => [ "$host:$port" 1], 
'debug' => 0, 
'compress_threshold' => 10_000, 


}; 


unless ( $memd->set( $key ， "Nagios Check key", 4*60 ) ) { 
print "unable to set memcached $key"; 
exit $ERRORS{'CRITICAL'}; 

} 


my $val = $memd->get( $key ); 
if ( defined($val) and $val eq "Nagios Check key" ) { 
exit $ERRORS{'OK'}; 


} 

else { 
print "unable to get memcached $key/wrong value returned"; 
exit $ERRORS{'CRITICAL'}; 


} 
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5.1.8 ”小结 
在 服务 器 监控 这 种 需要 稳定 运行 的 领域 ,使 用 Nagios 是 很 明智 的 选择 。 而 
且 Nagios 非常 适合 在 大 规模 环境 中 使 用 ， 因 为 Nagios 提供 了 丰富 的 插件 ， 


能 够 应 对 各 种 环境 ， 通 过 有 效 使 用 Nagios， 可 以 实现 基础 设施 的 稳定 运 
行 。 


5.2 ”服务 器 资源 的 监控 一 Ganglia 


5.2.1 服务 器 资源 的 监控 


本 市 将 介绍 服务 器 资源 监控 的 相关 内 容 。 前 六 部 分 分 析 监 控 的 作用 等 ， 后 
半 部 分 介绍 笔者 所 应 用 的 监控 的 具体 实施 策略 。 


监控 的 目的 

首先 对 监控 这 种 行为 进行 分 析 整 理 。 监 控 的 目的 用 一 句 话 来 说 就 是 观察 服 
务 器 行为 的 变动 。 说 到 观察 行为 的 变动 ， 就 是 指 持续 记录 下 面 这 些 表示 服 
务 姨 状态 的 指标 : 

。 CPU 使 用 率 

。 内 存 使 用 率 


。 load average 
。 网 络 流量 
并 将 其 可 视 化 ， 以 便 更 清楚 地 把 握 变 化 的 具体 情况 及 倾向 。 


与 需要 及 时 处 理 的 服务 监控 (也 可 以 说 检测 异常 ) 不 同 ， 观 察 行为 的 变化 
看 似 用 处 不 大 ， 但 是 在 后 面 的 实践 中 整 会 体会 到 其 价值 。 


此 外 ， 诸 如 在 电子 杂志 、 电 视 商 业 广 告 、 大 规模 的 门户 网 站 刊登 了 某 站 点 
的 广告 的 情况 下 ， 基 于 广告 的 宣传 效 末 ， 该 站 点 可 能 会 瞬间 产生 大 量 的 访 
问 ， 这 时 ， 直 到 访问 稳定 下 来 之 前 ， 管 理 者 一 定 会 忙 得 不 可 开交 。 这 样 一 
来 ， 一 段 时 间 之 后 谁 还 会 知道 系统 的 瓶颈 究竟 在 哪里 呢 ? 而 如 果 能 将 过 去 
服务 句 资 源 的 变化 用 图 表 呈 现 出 来 ， 束 可 以 清楚 地 进行 比较 ， 从 而 也 更 容 


易 分 析 


另外 ， 在 环境 没有 变化 但 是 观测 的 数值 出 现 波动 的 情况 下 ， 束 可 以 预测 可 
能 会 发 生 故 障 。 举 例 来 说 ， 在 IO 进程 的 等 竺 数 持续 增加 居 高 不 下 的 情况 
下 ， 融 可 能 是 磁 副 故障 导致 TO 出 现 了 性 能 瓶 令 。 通 过 使 用 监控 ， 可 以 及 时 
应 对 上 述 状况 。 


5.2.2 ”检测 工具 的 讨论 


那么 ， 实 际 上 监控 是 怎样 部 署 的 呢 ? 虽说 从 零 开始 建立 相关 机 制 也 是 可 行 
的 ， 但 目前 已 经 存在 了 很 多 监控 相关 的 工具 ， 可 以 帮助 我 们 收集 资料 并 进 
0 
克 销 工具: 


Munin URL http:/munin.projects.linpro.no/ 


Cacti URL http:/www.cacti.net/ 


Centreon (旧称 Oreon) URL http:/www.centreon.com/ 


Monitorix URL http:/www.monitorix.org/ 


NetMRG URL http:/www.netmrg.net/ 


collectd URL http://collectd.org/ 


这 里 讲 一 下 笔者 使 用 Munin 和 Cacti 的 感受 。 因 为 Munin 中 存在 非常 多 的 
插件 ， 所 以 即便 不 编写 程序 或 进行 详细 的 设 定 ， 也 可 以 使 多 种 资源 报表 图 
表 化 。Cacti 的 优点 在 于 清晰 地 划分 了 层 (收集 资料 、 定 义 资料 、 绘 制图 
表 ) 的 结构 ， 以 及 所 有 的 配置 都 可 以 在 浏览 器 上 运行 。 


一 般 情 况 下 ， 在 增加 或 者 删除 作为 监控 对 象 的 节点 (服务 器) 的 时 候 ， 上 
述 两 种 工具 都 必须 进行 改写 配置 的 操作 ， 而 且 图 表 的 一 名 性 也 会 变 靶 ， 攻 
此 不 适合 用 于 监控 大 量 服务 右 。 


5.2.3 Ganglia ..…... 面 向 大 量 节点 的 图 表 化 工具 


那么 在 服务 器 集群 中 究竟 要 使 用 什么 工具 呢 ? 这 时 就 该 Ganglia ”出 场 了 。 
根据 Ganglia 的 官网 介绍 ， 最 初 Ganglia 是 以 在 组 或 分 布 式 计算 这 些 有 大 量 
节操 的 环境 中 使 用 为 前 提 而 创建 的 监控 工具 。 以 下 列举 几 点 在 实际 使 用 中 

比较 便利 的 地 方 。 
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首先 第 一 点 ， 增 加 、 删除 节点 (服务 器 ) 时 无 需 变更 配置 。 在 增加 的 节点 
中 只 需 修 改 代 理 (Gmond) 就 可 以 了 。 这 样 一 来 ， 在 与 采集 数据 并 进行 图 
表 化 作业 的 程序 (Gmetad) 通信 和 时， 就 可 以 将 图 表 化 对 象 增加 进 相 应 的 组 
了 。 然 后 活用 组 播 通信 ， 就 没 必要 配置 IP 地 址 了 ， 也 不 用 为 了 检测 出 节点 
而 在 整个 子 网 的 范围 内 进行 SNMP 了 。 


第 二 点 是 图 表 的 一 览 性 强 。 请 看 图 5.2.1。 像 这 样 将 所 有 节点 的 图 表 都 以 网 
格 的 方式 表现 出 来 ， 更 易于 进行 宏观 的 比较 。 
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图 5.2.1 Ganglia 
相反 ， 也 列举 儿 点 不 便 之 处 。 


首先 ， 图 表 的 种 类 没有 那么 多 。 只 能 制作 CPU 和 内 存 使 用 率 、 流 量 之 类 的 
基本 图 表 ， 种 类 没有 Munin 多 。 另 外 在 增加 单独 的 图 表 的 情况 下 ， 如 果 数 
值 是 一 个 种 类 的 话 ， 只 需 运 用 gmetric 命令 来 发 送 数值 ， 就 可 以 简单 地 制作 
图 表 。 但 如 果 在 一 个 图 表 中 描述 多 个 数值 的 话 (例如 在 一 个 图 表 中 对 IO 读 
取 和 IO 写 入 两 方面 进行 描述 ) ， 就 需要 以 Ganglie 自身 的 代码 (PHP) 来 
实现 ， 因 此 较为 麻烦 。 


第 二 点 ， 图 表 中 指定 显示 时 间 的 选择 项 是 固定 的 ， 只 有 一 人 小时、 一天、 一 
周 、 一 个 月 、 一 年 ， 除 此 之 外 都 不 能 选择 。 比 如 “有 大 量 访问 的 那 一 天 几 点 


到 几 点 的 图 表 * 就 不 能 显示 ， 也 就 是 说 ， 不 能 灵活 地 显示 某 个 时 间 段 的 状 
况 。 一 般 来 说 ， 因 为 所 有 时 间 段 的 观测 资料 都 被 你 存 了 下 来 ， 所 以 只 需 对 
指定 显示 期 间 的 用 户 接口 和 描述 逻辑 稍 加 设 定 ， 就 应 该 能 获得 任意 时 间 的 
图 表 。 笔 者 使 用 了 Yahoo! UI Librarys 的 日 历 进行 了 上 述 改 造 ， 这 样 承 能 够 
方便 地 调 取 所 需 日 期 的 信息 了 。 
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米 米 米 


虽然 直接 使 用 Ganglia 还 存在 一 些小 问题 ， 但 是 在 有 大 量 市 点 的 环境 中 使 用 
时 ， 因 为 基本 的 设计 和 相关 机 制 已 经 比较 完善 ， 而 且 该 工具 又 是 使 用 PHP 
编写 的 ， 所 以 整体 的 可 读 性 及 定制 性 非常 强大 。 因 此 使 用 Ganglia 时 ， 可 以 
根据 目 己 的 需要 做 出 相应 的 改进 。 接 下 来 ， 我 们 将 介绍 增加 图 表 的 方法 。 
男 外 顺便 一 提 ， 本 市 中 使 用 的 Ganglia 的 版 本 是 3.0.5。 


5.2.4 将 Apache 的 进程 状态 图 表 化 


作为 向 Ganglia 中 增加 目 定义 图 表 的 示例 ， 下 面 介绍 一 下 将 Apache 的 进程 
状态 图 表 化 的 方法 。 


若 开 启 Apache 所 附带 的 mod_status 模块 ， 束 可 以 立即 了 解 到 各 httpd 进程 
的 工作 状态 ( 表 5.2.1) 。 例 如 ， 将 httpd.conf 按照 代码 清单 5.2.1 设置 的 
话 ， 就 能 够 通过 访问 “http://example.org/server-status ”来 查看 
当前 的 状态 信息 。 而 且 访 问 /server-status?auto 的 话 ， 就 会 返回 便 
于 程序 处 理 的 响应 形式 。 


表 5.2.1 Apache 的 状态 


EF 在 读 取 请 求 


下 在 上 


SKeep-Alive 的 要 求 得 机 中 〈 保 持 常 连接 进程 ， 可 发 送 多 个 文件 ) 


正在 关闭 连接 


(整理 Idle 的 worker) 


当前 进程 


代码 清单 5.2.1 mod_ status 的 设 定 


<Location /server-status> 
SetHandler server-status 


Order Deny,Allow 
Deny from all 
Allow from 192.168.31.0/24 


Allow from 127.0.0.1 
</Location> 


w315 Apache Process Status Last 3days 


proc 


Wed Thu Fri 
(proc: min= 18,00 avg= 29,35S max= S50.,00) 
口 Starting up 加 Reading Request 国 Sending Reply 
国 Keepalive (read) DNS Lookup 图 Closing connection 图 Logglng 
国 Gracefuly finishing 口 IdLe cleanup of worker 
国 Waiting for connection 


图 5.2.2” ”Apache 进程 状态 的 图 表 


在 图 5.2.2 中 ， 每 个 进程 的 状态 用 不 同 的 颜色 进行 了 区 分 。 通 过 制作 这 样 的 
图 表 ， 比 起 人 简单 地 表述 为 “服务 右 凤 忙 ”"， 可 以 清楚 地 看 出 具体 是 由 Keep- 
ive 超时 等 待 所 造成 的 ， 还 是 由 日 志 写 入 的 IO 等 待 所 造成 的 ， 一 目 了 


本 下 生生 


在 Ganglia 中 增加 图 表 的 方法 


在 Ganglia 中 增加 图 表 时 ， 如 果 要 用 一 个 图 表 描 述 一 个 监控 值 ， 则 只 需 使 用 
gmetric 命令 即 可 。gmetric 将 使 用 组 播 来 播报 监控 值 等 信息 ，gmetad 
则 会 将 监控 值 存储 下 来 。 


男 外 ， 将 多 个 监控 值 放 在 一 个 图 表 中 进行 描述 的 情况 下 ， 则 需要 着 手 修改 
Ganglia 的 源码 。 因 为 各 个 监控 值 是 保存 在 不 同 的 图 表 文件 中 的 ， 所 以 要 想 
办 法 来 统一 读 取 这 些 监控 值 ， 并 将 其 插 述 在 一 个 图 表 中 。 


尝试 增加 多 个 图 表 


以 下 将 实际 尝试 增加 Apache 的 进程 状态 图 表 。 首 先进 行 代码 清单 5.2.1 的 
配置 ， 然 后 访问 “http://localhost/server-status?Auto”， 来 确 
认 是 否 能 得 到 应 答 。 


一 旦 得 到 确认 ， 就 会 访问 该 URL 并 处 理 其 应 答 ， 执 行使 用 gmetric 发 送 监 
控 值 的 程序 ， 这 里 默认 每 60 秒 获 取 一 次 Apache 的 进程 信息 ， 并 使 用 了 通 
过 gmetric 发 送 数据 的 示例 程序 ” 。 


‖ 9 该 示例 程序 在 源 代码 中 可 以 查看 (apache-status) 。 本 书 的 源 代码 可 以 通过 以 下 链接 下 载 : 
| URL http:/www.ituring.com.cn/book/download/b70de735-d478-466b-96ac-6782db82f642 


人 至此， 在 Ganglia 的 Web 界面 的 集群 视图 的 Metric 下 拉 亲 单 和 主机 页 面 视 


i 
人 ~ 二 


ERY 


~ 


， 应 该 会 显示 个 别 监控 值 的 图 表 (ap-closing 等 以 ap- 开头 ) 


来 ， 对 监控 值 进行 归纳 总 结 ， 输 出 一 个 如 图 5.2.2 所 示 的 图 表 。 这 里 对 


变更 的 文件 进行 简单 的 说 明 。 全 部 的 变更 内 容 请 参考 源 代 码 中 的 
ganglia.patch ° 


conf.php ~、 my-conf.php 


在 conf.php 中 引用 (include) 一 个 my-conf.php 文件 ， 有 关 本 次 变更 的 
配置 项 目 在 my-conf.php 中 修改 


functions.php 


增加 run_apache 函数 ， 通 过 将 相关 参数 传递 到 主机 ， 并 根据 传递 的 
站 ee Apache 图 表 。 这 里 只 是 单纯 地 通过 主机 名 
进行 判 册 


graph.php 


变更 较 多 行 的 是 graph.php, 但 是 并 不 复杂 。 这 里 只 征用 RRDtool 语法 
发 出 了 生成 图 表 的 指示 ， 因 为 读 取 的 数据 较 多 ， 所 以 行 数 也 随 之 增加 


templates/default/host_view.tpl 、 host_view.php 


定制 主机 视图 。 在 模版 中 通过 “functional”* 标 签 增加 搬入 点 ， 在 
host_view.php 中 ， 当 run_apache 为 真 时 ， 就 将 “functional” 标 签 分 配 到 
显示 Apache 图 表 的 HTML 文件 中 


header.php 


在 集群 视图 的 Metric 下 拉 沫 单 中 显示 Apache 的 图 表 
(Apache_Proc_report) 


其 他 的 自 定义 图 表 


除了 人 上述 列举 的 图 表 之 外 ， 还 有 其 他 一 些 有 用 的 图 表 。 和 之 前 的 Apache 进 
程 状态 的 图 表 类 似 ， 只 需 自 定义 Ganglia 就 可 以 生成 ， 大 家 不 妨 尝试 一 下 。 


。 MySQL 的 各 种 缓存 (查询 缓存 和 和 密 钥 缓存 等 ) 命中 率 的 图 表 (图 


5.2.3 @) 


MySQL 每 秒 处 理 的 查询 数 的 图 表 (图 5.2.3 @) 


。MySQL 的 SELECT、INSERT、UPDATE、DELETE 查询 比例 的 图 
表 (图 5.2.3 @) 


MySQL 的 InnoDB 的 表 空 间 剩余 量 的 图 表 (图 5.2.3 @) 
MySQL 连接 数 的 图 表 (图 5.2.3 @) 

Tomcat 的 堆 内 存 使 用 状况 的 图 表 (图 5.2.3 @) 

@ 各 种 缓存 的 命中 率 人 @ 单 位 时 间 的 查询 数 
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图 5.2.3 自 定义 图 表 


5.3 ”高 效 的 服务 顺 管 理 一 -Puppet 


5.3.1 ”实现 高 效 的 服务 器 管理 的 工具 Puppet 


由 于 现行 的 服务 正和 逐步 趋 癌 于 大 规模 化 ， 随 之 而 来 的 是 服务 右 人 台数 和 服务 
独 管 理 费 用 的 增加 。 而 如 果 将 提供 个 人 服务 的 一 台 到 数 台 不 等 的 服务 占 的 
管理 方法 应 用 到 企业 的 数 百 台 到 数 千 台 不 等 的 服务 占 的 管理 上 ， 束 需要 采 
取 适 当 的 手段 才能 完成 。 为 此 ， 对 于 已 成 规模 的 企业 服务 占 管 理 来 说 ， 不 
仅 需要 高 效 、 准 确 地 维持 平衡 的 运行 环境 ， 而 且 还 可 能 需要 将 配置 的 变 
想 办 法 同步 到 所 有 服务 右上 。 


Puppet ! 是 一 个 能 够 实现 高 效 地 管理 服务 器 的 工具 ， 并 且 适 用 于 大 规模 的 
运行 环境 。 通 过 使 用 Puppet， 原 本 需要 手动 登录 各 个 服务 器 进行 的 操作 现在 
基本 上 都 可 以 目 动 完成 了 。 例 如 : 


10 URL http://puppet.reductivelabs.com/ 


。 投 入 新 型 服务 器 
。 变更 已 有 服务 器 的 配置 


通过 使 用 Puppet， 以 上 两 种 工作 将 变 得 更 加 轻松 。 而 且 还 能 避免 因 人 为 下 
忽而 环 记 进行 菜 些 配置 。 


本 太 中 所 介绍 的 内 容 以 CentOS 5.0 的 Puppet 0.24.4 版 本 为 准 。 


5.3.2 ”Puppet 的 概要 


Puppet 是 由 Reductive Labs 开发 ， 使 用 Ruby 语言 描述 的 开源 服务 器 自动 化 
管理 工具 。 


在 Puppet 的 各 服务 器 Manifest (配置 文件 ) 中 ， 各 个 Manifest 通过 类 进行 
定义 ， 而 且 定 义 新 的 Manifest 时 还 可 以 继承 已 经 定义 好 的 旧 的 Manifest 

等 ， 因 此 其 具有 面向 对 象 的 灵活 性 的 特性 。Puppet 于 2003 年 开始 开发 ， 最 
近 一 两 年 得 到 了 越 来 越 多 的 关注 ， 国 内 也 有 一 些 大 企业 引入 了 Puppet 。 


Puppet (图 5.3.1) 通过 在 各 个 服务 右上 运行 的 puppetd 及 管理 服务 器 上 运 
行 的 puppetmasterd 这 两 个 守护 程序 来 进行 运作 。 每 个 服务 器 的 puppetd 会 
定期 (默认 30 分 钟 ) 癌 puppetmasterd 发 出 询问 ， 把 得 出 的 结论 与 现状 进 
行 对 比 ， 以 更 新 相 应 的 服务 器 配置 。 此 时 ， 配 置 文件 可 以 从 puppetmasterd 


下 载 。 当 然 ， 也 可 以 不 进行 定期 的 询问 ， 而 是 直接 运行 puppetd 命令 ， 以 
确认 并 更 新 相应 的 服务 器 配置 。 另 外 ， 通 过 在 puppetmaster 服务 器 上 执行 
puppeturn 命令 ， 也 可 以 更 新 相应 的 服务 器 配置 。 


Puppet 服务 器 
{ puppetmasterd ) 


各 节点 的 
配置 文件 


通过 puppetd 进行 访问 
到 / 周到 站 的 生 


图 5.3.1 使 用 Puppet 管理 服务 器 
puppetd 和 puppetmasterd 之 间 的 通信 还 采用 了 SSL 加 密 设 计 以 确 你 安全 。 
5.3.3 ”Puppet 的 配置 


本 蔬 将 以 Apache 的 web 服务 器 的 设 定 为 例 ， 来 讲述 Puppet 配置 的 概要 。 
Puppet 的 配置 可 分 为 以 下 两 个 部 分 : 


。 Puppet 自身 的 配置 (/etc/puppet/puppet.conf) 
。 部署 由 Puppet 设 定 的 服务 器 配置 内 容 的 配置 文件 (Manifest) 

这 里 对 Manifest 的 内 容 进 行进 一 步 说 明 。 在 Puppet 的 Manifest 中 ， 廊 点 
(作为 puppetd 的 配置 对 象 的 服务 器 ) 中 会 被 分 配对 各 服务 器 的 配置 进行 定 


义 的 类 。 此 外 ， 类 还 能 像 面向 对 象 的 语言 那样 继承 其 他 类 。 该 配置 通常 保 
存在 /etc/puppet/manifests/ 中 。 若 将 全 部 的 配置 都 集中 在 一 个 文件 进行 摘 壕 


融会 导致 文件 变 得 很 大 ， 所 以 建议 根据 服务 右 的 功能 等 进行 有 效 的 

省 分 。 

节点 的 定义 

自 完 ， 对 代表 各 个 服务 器 的 节点 的 配置 内 容 进 行 定义 。 这 里 并 不 直接 进行 

具体 的 配置 操作 ， 而 是 通过 指定 配置 集合 的 类 使 其 自动 完成 这 些 配置 操 

作 。 一 个 节点 能 够 指定 多 个 类 。 代 码 清 单 5.3.1 中 束 为 配置 对 象 的 服务 需 
(testserver) 通过 Apache 的 mod_perl 模块 指定 了 Web 服务 器 的 类 
apache-mod_per]) 


代码 清单 5.3.1 节点 定义 文件 (nodes.pp) 


node testserver { 
include apache-mod_perl 


类 的 定义 


类 是 具体 配置 的 集合 。 通 过 继承 其 他 的 类 ， 能 够 统一 定义 具有 类 似 功能 的 
服务 句 的 相同 配置 。 


代码 清单 5.3.2 所 显示 的 apache-mod_perl 类 中 定义 了 各 种 配置 项 目 ， 如 是 
否 安装 了 各 种 rpm 软件 包 (httpd、mod_perl) ，httpd.conf 是 否 是 最 新 版 ， 
httpd 是 否 已 经 被 启动 等 。 接 下 来 ， 对 具体 的 配置 内 容 进 行 说 明 。 


通过 代码 清单 5.3.2 @ 的 package 的 声明 ， 可 以 发 现 这 里 指定 安装 了 httpd、 
mod_perl、perl-libapredq2 的 软件 包 (ensure => installed ) 。 如 果 还 
未 安装 ， 则 会 使 用 包 管 理 系统 目 动 进 行 安装 。 


通过 代码 清单 5.3.2 @ 的 configfile 的 声明 ， 可 以 配置 httpd.conf 及 
sysconfig/httpd 这 两 个 文件 。require => Package["httpd- 
mod_per1"] 语句 表明 在 软件 包 补 安装 后 ， 束 开始 执行 文件 的 分 发 行为 。 
configfile 并 非 Puppet 中 默认 配置 的 声明 ， 而 是 由 后 面 叙 述 的 defined 的 声 
明 扩 充 而 来 的 。 实 际 上 被 分 发 的 文件 的 地 址 是 由 configfile 声 明 中 的 source 
属性 指定 的 。 puppetmasterd 同样 也 兼容 文件 服务 器 ， 可 以 将 指定 的 文件 分 
发 到 目标 服务 右 中 。 


通过 代码 清单 5.3.2 @ 的 user 的 声明 ， 可 以 对 apache 的 用 户 进行 定义 。 从 
其 官方 文档 中 可 以 得 知 ， 这 里 是 可 以 配置 password 的 ， 但 现行 的 版 本 中 被 
注释 挥 了 ， 因 此 需要 逐 台 为 服务 器 设 定 password 。 


通过 代码 清单 5.3.2 @ 的 service 的 声明 ， 可 以 发 现 这 里 启动 了 httpd 进程 ， 
并 定义 了 在 启动 时 通过 chkconfig 执行 。 通 过 subscribe => 
[File[$path], File[$sysconfigpath], Package['httpd'], 
Package['mod_per1l'] ] 的 描述 ， 可 以 在 安 逆 及 更 狐 包 ， 以 及 更 新 配置 
文件 时 自动 重启 httpd 进程 。 另 外 通过 enable => true 的 描述 ， 可 以 在 
服务 器 重启 时 目 动 局 动 服务 。 而 在 手动 进行 管理 时 ， 往 往 会 乐 记 将 其 设 定 
为 目 动 局 动 。 


代码 清单 5.3.2 @ 的 fle 声明 中 定义 了 /Ver/www 目录 的 属性 。 
代码 清单 5.3.2 ”类 定义 文件 (apache-mod_perl.pp) 


Class apache-mod_perl { 
package { httpd: -© 
ensure => installed 


} 


package { mod_perl: 
ensure => installed 


package { perl-libapreq2: 
ensure => installed 


} 


$path = '/etc/httpd/conf/httpd.conf' 
configfile { "$path": -© 
ource => "/apache-mod_peril/httpd.conf", 
ode => 644, 
equire => Package["httpd-mod_per1"] 


$sysconfigpath = '/etc/sysconfig/httpd' 
configfile { "$sysconfigpath": 
source => "/apache-mod_perl/sysconfig.httpd", 
mode => 644, 
require => Package["httpd-mod_per1"] 


user { apache: -© 
ensure => present, 
uid => 48, 
gid => 48 

} 


service { httpd: -=-O 
hasrestart => true, 
hasstatus => true, 
ensure => running, 
subscribe => [ File[$path], File[$sysconfigpath], Package['httpd- 
mod_perl'] 1], 
enable => true 


file { -© 
"/var/www": owner => apache, group => apache, mode => 755; 
} 
} 


确认 配置 是 否 有 效 


将 这 些 万 点 定义 和 类 定义 文件 读 入 puppetmasterd， 在 testserver 中 按 以 下 方 
式 运 行 puppetd，testserver 就 会 启动 Apache 的 mod_per 模块 ， 使 其 作为 
Web 服务 右 正 确 运行 。 假 设 puppetmasterd 运行 的 服务 絮 的 IP 是 
192.168.0.1， 即 : 


puppetd -0 -v --server 192.168.0.1 


铬 正确 地 进行 了 配置 ， 束 会 得 到 以 下 输出 : 


info: Caching configuration at /var/lib/puppet/localconfig.yaml 
notice: Starting configuration run 
notice: Finished configuration run in 1.27 seconds 


5.3.4 配置 文件 的 语法 


Puppet 配置 文件 的 语法 是 Puppet 独 目 定义 的 ， 大 致 类 似 Ruby 的 语法 。 下 
面 对 其 进行 简单 的 讲解 。 在 官方 文档 中 还 有 详细 的 说 明 ， 有 兴趣 的 话 可 以 


参考 。 


资源 的 定义 


配置 文件 等 的 资源 


Resource) 的 集合 ， 包 含 类 (Class) 、 男 数 


( 
(Definition) 、 节 点 (Node) 三 个 种 类 。 


类 


类 可 以 定义 多 个 资源 的 集合 。 在 一 个 主机 上 只 能 创建 一 个 类 的 实例 。 
下 面 的 unix 类 中 定义 了 /etc/passed 文件 与 /etc/shadow 文件 的 属性 : 


class unix { 
file { 
"/etc/passwd": owner => root, group => root, mode => 644; 
"/etc/shadow": owner => root, group => root, mode => 440, 


也 可 以 继承 其 他 类 ， 只 修改 其 中 的 一 部 分 。 例 如 像 下 面 这 样 将 文件 所 
属 组 由 root 变更 为 wheel : 


class freebsd inherits unix { 
File["/etc/passwd"] { group => Wheel } 
File["/etc/shadow"] { group => Wheel } 


一 一 函数 

对 变量 进行 操作 时 可 以 定义 相应 的 函数 。 男 数 与 类 不 同 ， 不 可 以 进行 
el ° 男 外 在 一 个 主机 上 可 以 定义 多 个 范 数 ， 这 也 是 函数 与 类 的 
不 同上 后 。 

代码 清单 5.3.3 中 定义 了 configfile 函数 ， 设 定 了 一 些 参数 的 默认 值 。 


代码 清单 5.3.3 ”configfile 函数 的 定义 和 默认 值 的 设 定 


define configfile($owner = root, $group = root, $mode = 644, 
$source, $backup = false, $recurse = false, $ensure = file) { 
file { $name: 

mode => $mode, 

owner => $owner, 

group => $group, 

backup => $backup, 

recurse => $recurse, 


ensure => $ensure, 
source => "puppet://$server/config$source" 


} 
} 


$path = '/etc/httpd/conf/httpd.conf' 
configfile { "$path": 


source => "/apache-mod_perl/httpd.conf", 
mode => 644, 


require => Package["httpd-mod_per1"] 


} 


节 所 


节点 中 定义 的 内 容 与 类 相同 ， 而 且 能 够 在 真正 的 服务 器 上 生效 。 可 以 
使 用 hostname 作为 主机 的 标识 符 ， 而 不 使 用 卫 地址。 以 下 是 将 


apache-mod_perl 类 的 设 定 同步 到 testserver 服务 器 上 : 


node testserver { 
include apache-mod_perl 


资源 


各 个 类 的 实体 资源 可 以 根据 Type (类 型 ) 进行 定义 。Type 即 包 e (文件 ) 
或 package ( 包 ) 等 具体 的 设 定 项 目 。 


file 


在 “file” 中 可 以 定义 文件 的 属性 。 通 过 定义 sources， 可 以 从 


puppetmasterd 上 下 载 文件 。 另 外 ， 通 过 定义 content， 还 可 以 直 


[ 接 写 入 


内 容 ， 或 者 使 用 模板 功能 。 
以 下 指定 了 /etc/passwd 文件 的 所 有 者 与 权限 : 


file { 
"/etc/passwd": owner => root, group => root, mode => 644; 


package 


“package” 中 定义 了 包 。 通 过 指定 ensure =>installed ， 可 以 在 没 
安装 包 的 情况 下 ， 在 操作 系统 上 安装 这 些 包 。 例 如 在 Red Hat 系统 上 ， 
通过 yum 命令 安装 rpm 包 ; 在 Debian 系统 上 ， 通 过 apt-get 命令 安 
装 deb 包 等 ， 可 以 根据 操作 系统 的 不 同 进行 包 的 安装 。 


以 下 是 安装 mysql 包 的 定义 : 


package { mysql: 
} 


ensure => installed, 


eXeC 


和 “exec” 中 可 以 执行 任意 的 命令 。 例 如 在 下 例 中 ， 更 新 完 iptables 的 配 
置 文件 后 ， 会 重启 iptables 。 


exec { "/etc/init.d/iptables stop && /etc/init.d/iptables start": 
subscribe => File["/etc/sysconfig/iptables"], 


service 


“service" 中 定义 了 服务 《进程 ) 。 具 体 可 以 定义 服务 的 启动 状态 及 重启 
时 的 行为 。 


以 下 代码 定义 了 httpd 服务 的 运行 (ensure=>running ) 以 及 在 操作 
系统 启动 时 自动 启动 服务 (enable=>true ) : 


service { httpd: 
ensure => running, 
enable => true 


} 


对 各 个 服务 器 的 配置 进行 微调 


若 要 针对 各 个 服务 器 对 设 定 项 目 进 行 微调 ， 可 以 使 用 Puppet 的 facterlibrary 
变量 ， 来 完成 配置 的 调整 工作 。 例 如 通过 访问 $operatingsystem 变量 ， 可 以 


在 Solaris 和 default 的 情况 下 选择 不 同 的 文件 配置 路 径 。 


path => $operatingsystem ? { 
solaris => "/usr/local/etc/ssh/sshd_config", 
default => "/etc/ssh/sshd_config" 
}, 


在 命令 行 上 执行 facter 命令 ， 可 以 浏览 除 $operatingsystem 以 外 的 各 变量 
的 使 用 方法 。 


资源 间 的 依赖 关系 


通过 定义 资源 间 的 依赖 关系 ， 可 以 指定 配置 生效 的 顺序 ， 以 及 配置 生效 所 
需 重启 的 服务 。 例 如 在 更 新 httpd.onf 后 ， 就 需要 重启 httpd 以 使 配置 生效 。 
a 
效 的 情况 发 生 。 


在 下 面 的 例子 中 ， 通 过 在 service 函数 中 定义 subscribe 变量 的 值 ， 设 定 了 
/etc/httpd/conf/httpd.conf 配置 文件 与 httpd 服务 的 依赖 关系 。 通 过 这 样 的 配 
置 ， 在 使 用 Puppet 时 若 发 生 /etc/httpd/conf/httpd.conf 配置 文件 更 新 的 情 
况 ， 束 会 自动 重启 httpd 服务 以 使 更 新 生效 。 


$path = "/etc/httpd/conf/httpd.conf" 
configfile { "$path": 
source => "/apache-mod_peril/httpd.conf", 
mode => 644, 


service { httpd: 
hasrestart => true, 


hasstatus => true, 

ensure => running, 

subscribe => [ File[$path] ]， 
enable => true 


通过 模板 完成 Manifest 文件 的 定义 


Puppet 的 特点 就 是 可 以 根据 用 途 ， 使 用 模板 自 定 义 复 杂 的 Manifest 文件 ， 
并 同时 进行 配置 的 分 发 操作 。 在 此 以 DualMaster ( 双 问 同步 ; MySQL 类 与 
iptables 类 为 例 进 行 说 明 。 


MySQL 的 配置 文件 (my.cnf) ， 如 server_id 和 同步 的 设 定 、 双 向 同步 
的 设 定 等 ， 在 不 同 的 服务 器 中 这 些 配置 都 是 不 同 的 。 因此 ， 通 过 使 用 
模板 功能 ， 可 以 让 描述 工作 变 得 更 人 简洁。 在 该 类 中 ， 通 过 在 各 市 点 的 
定义 中 传递 参数 来 调整 配置 文件 。 


首先 ， 在 代码 清单 5.3.4 中 定义 mysql-master-conf 函数 ; : 接 春 ， 在 代码 
清单 5.3.5 的 点 的 配置 中 设 定 server_ id、master_host 等 参数 信息 ; 最 
后 ， 在 代码 清单 5.3.6 的 multimaster-my.cnf 中 定义 模板 。 


进行 以 上 配置 后 ， 运 行 puppetd， 模 板 束 可 以 根据 server_id 或 
master_ host 多 等 传递 的 参数 值 ， 生成 相应 的 配置 文件 ， 完 成 实际 的 服务 
器 的 配置 。 在 此 需要 注意 的 是 ， 这 里 之 所 以 不 是 “server-id” 而 


四.cc 


是 “server_id”， 是 因为 Puppet 的 语言 规范 不 允许 参数 中 出 现 “-”。 
代码 清单 5.3.4 ”mysql-master-conf 函数 


define mysql-master-conf($path, $server_id, $master_host = false, 
$auto_increment_increment = false , $auto_ increment 
_offset = false, $lo0g_bin = false, $10g_slave_updates = false, 
$innodb = false, $replace = true) { 
templatefile { $path: 
source => "mysql/multimaster-my.cnf.erb", 
notify => Service[mysqld], 
replace => $replace 


代码 清单 5.3.5 mysqldb 节点 的 定义 


node mysqldb { 
mysql-master-conf {"my.cnf": 
path => "/etc/my.cnf", 
server_id => "1001", 
master_host => "192.168.1.1", 
auto_increment_increment => "16", 
auto_increment_offset 三 站 于 


代码 清单 5.3.6 multimaster-my.cnf (摘录 ) 


server-id = <%= server_id %> 
lo0g-bin 

master-host = <%= master_host %> 
master-user = repli 


<% if auto_increment_increment then -%> 
auto_increment_increment = <%= auto_increment_increment %> 
<% end -%> 

<% if auto_increment_offset then -%> 

auto_increment_offset = <%= auto_increment_offset %> 

<% end -%> 


iptables 类 


在 LVS (负载 均衡 集群 ， 中 根据 DSR (动态 路 由 协议 ) 进行 iptables 设 
定时 ， 需要 根据 主机 的 用 途 定 义 不 同 的 VIP。 因此 这 里 每 个 VIP 的 设 
定 文 件 都 不 同 ， 若 一 个 一 个 地 去 准备 的 话 就 比较 繁琐 ， 而 通过 在 
ipiables 类 中 借用 模板 功能 ， 就 可 以 在 定义 节点 时 传递 相应 的 参数 ， 生 
成 恰当 的 配置 文件 。 


node foobar { 
iptables-lvs-conf {"iptables": 
path => "/etc/sysconfig/iptables", 
lvs_iptables => "59.106.108.97:80" 


以 上 在 午 iptables-lvs-conf 这 个 独立 的 函 数 中 完成 了 iptables 的 设 定 。path 
量 是 文件 的 配置 路 径 ，lvs_iptables 变量 是 iptables 中 的 内 容 。 在 这 里 
定义 先 了 <59， 106 .108.97:80”， 实 际 上 执行 的 是 : 


/sbin/iptables -t nat -A PREROUTING -d 59.106.108.97 -p tcp -j 
REDIRECT --to-ports 80 


| 


另外 ， 如 果 定 义 为 “59 ,106 .108.97:80:81”， 实 际 就 会 执行 : 


/sbin/iptables -t nat -A PREROUTING -d 59.106.108.97 -p tcp -m tcp 
--dport 81 -j REDIRECT --to-ports 80 


在 代码 清单 5.3.7 中 定义 了 iptables-lvs-conf 函数 。 这 里 通过 source 变量 
定义 了 模板 ， 通 过 notify 变量 指定 了 在 模板 更 狐 时 重启 iptables 。 
templatefile 是 通过 functions/utils.pp 定义 的 芳 数 ， 会 生成 相应 的 模板 。 


在 代码 清单 5.3.8 中 定义 iptables 类 。 


configifle 中 包含 的 iptables_check.sh 是 检测 是 否 设 定 了 iptables 的 命 
令 。 由 于 如 果 在 文件 配置 的 路 径 中 指定 了 原本 束 不 存在 的 目录 就 会 造 
成 错误 ， 因 此 这 里 设置 为 了 /usr/bin。 在 exec 的 定义 中 ， 通 过 订阅 

(Subscribe) configifle 生成 的 文件 ， 若 发 生 了 sysconfig/iptables 的 变 
更 ， 残 会 进行 重启 操作 。 


最 后 的 service 定义 指定 了 执行 iptables。 为 了 监控 iptables 服务 的 状 
态 ， 使 用 了 (在 代码 清单 5.3.8 的 @ 处 ) 配置 好 的 iptables_check.sh。 


代码 清单 5.3.9 是 模板 文件 。 根 据 传递 的 参数 ， 生 成 适当 的 文件 。 虽 说 
比较 理想 的 方式 是 将 需要 传递 的 参数 以 数组 的 形式 传递 ， 但 这 不 符合 
的 语言 规范 ” ， 因 此 需要 将 参数 断 开 为 多 个 参数 分 别 进行 传 

出 。 


代码 清单 5.3.7 ”iptables-lvs-conf 函数 


define iptables-lvs-conf($path, $lvs_iptables = []) { 
templatefile { $path: 
source => "iptables/lvs_iptables.erb", 
notify => Service[iptables] 


} 


} 


代码 清单 5.3.8 ”iptables 类 


class iptables { 
package { iptables: 
ensure => installed 
} 


$path = '/etc/sysconfig/iptables' 
$binpath = '/usr/local/hatena/bin' 


$checkcmd_path = '/usr/bin/iptables_check.sh' -© 
configfile { "$checkcmd_path": 

owner => root, 

group => root, 

mode => 755, 

source => "/iptables/iptables_ check.sh", 


} 


exec { "/etc/init.d/iptables stop && /etc/init.d/iptables start": 
subscribe => File["/etc/sysconfig/iptables"], 
refreshonly => true, 


} 


service { "iptables": 
status => "$checkcmd_path", 
start => "/etc/init.d/iptables start", 
ensure => running, 


} 
} 


代码 清单 5.3.9 templatesiptableslvs_iptables.erb 


# Generated by puppet 

*nat 

:PREROUTING ACCEPT [6180:371400] 

:POSTROUTING ACCEPT [42:5009] 

:OUTPUT ACCEPT [42:5009] 

<% lvs_iptables.split(/,/).each do |lvs_params| -%> 

<% lvs = lJvs_params.split(/:/) -%> 

-A PREROUTING -d <%= lvs[0] %> -p tcp -j REDIRECT<%= lvs.length > 2 


? " --dport #{]vs[2]}" : "" %><%= lvs.length >1?" --to-ports 
#{1lvs[1]}" : "" %> 

<% end -%> 

COMMIT 


# Completed 


Ud 
o 


11 puppet 的 语言 规范 中 规定 了 传递 给 模板 的 参数 仅 限 于 符合 要 求 的 字符 是 


5.3.5 “通知 操作 日 志 
puppetd 确认 服务 器 的 配置 后 ， 会 根据 需要 变更 〈 没 必要 时 无 需 变更 ) 该 服 


务 絮 的 配置 。 这 时 变更 的 内 容 将 输出 到 syslog。 也 可 以 在 邮件 或 


/村 


II 


志 中 进行 


通知 。 


tagmail 


tagmail 的 功能 是 在 各 服务 器 中 使 用 Puppet 时 ， 通 过 邮件 发 送 日 志 。 例 
如 ， 在 /etc/puppet/tagmail.conf 中 存在 如 下 记录 : 


all: useriQ@example.com 
apache: user2Q@example.com 


all 是 通知 全 部 的 变更 ， 通 过 指定 apache 等 的 标签 ， 可 以 将 与 标签 相关 
联 的 变更 进行 通知 。 标 签 能 够 在 每 个 类 中 定义 标签 名 。 为 外 ， 因 为 类 
名 默认 是 标签 名 ， 所 以 还 可 以 对 类 名 进行 指定 。 


——puppetmaster.log 


var/log/puppet/puppetmaster.log 中 会 输出 运行 结 琳 。 但 因为 此 处 的 错误 
信息 不 是 十 分 准确 ， 所 以 调试 程序 时 请 不 要 过 多 使 用 。 


report 


以 YAML 的 形式 输出 到 /var/lib/puppet/reports 中 。 每 次 生效 都 会 生成 一 
个 文件 ， 不 生效 就 什么 都 不 会 生成 。 可 以 利用 其 他 工具 进行 处 理 ， 并 
生成 图 表 。 

一 puppetd 中 的 日 志 


像 下 面 这 样 在 各 服务 絮 中 直接 启动 puppetd， 也 能 够 运行 puppetd。 


% sudo /usr/sbin/puppetd --server=192.168.0.1 -0 -v --waitforce 60 


因为 此 时 的 日 志 会 被 详细 地 和 输出， 因此 在 调整 配置 的 时 候 ， 这 种 方法 
就 更 具 参 考 性 。 另 外 ， 通 过 使 用 - -noop 参数 ， 可 以 在 不 重 写 配置 文件 


的 情况 下 确认 之 前 进行 的 设 定 。 
5.3.6 ”运用 


在 Puppet 中 ， 因 为 大 多 数 的 配置 文件 都 能 够 简单 地 进行 更 新 ， 所 以 配置 错 
误 的 影响 也 比较 大 。 例 如 在 sshd_config 配置 错误 时 ， 会 造成 无 法 登录 系统 
等 故障 。 正 因 如 此 ， 在 进行 大 规模 的 变更 时 ， 采 用 能 够 方便 地 撤销 修改 的 
方法 就 显得 尤为 重要 。 


为 此 可 以 考虑 以 下 方法 : 


。 在 应 用 到 所 有 服务 器 之 前 ， 首 先 在 部 分 服务 器 上 进行 测试 。 平 时 将 
puppetd 的 自动 更 新 设 为 无 效 ， 在 测试 用 的 服务 絮 中 运行 puppetd， 如 
果 没 有 问题 ， 再 将 puppetrun 应 用 到 所 有 的 服务 器 上 


采用 Subversion 对 配置 文件 进行 管理 。 通 过 将 /etc/puppet 目录 下 与 
Puppet 相关 联 的 配置 文件 全 部 托管 在 Subversion 中 进行 管理 ， 束 能 实 
现 配 置 文件 的 版 本 管理 。 据 此 可 以 追踪 过 去 的 变更 记录 ， 在 配置 不 当 
的 情况 下 还 能 回 深 到 之 前 的 配置 版 本 。 而 且 ， 还 可 以 对 Subversion 不 
同 版 本 分 支 的 快照 记录 使 用 make 命令 ， 在 配置 生效 前 ， 使 用 --noop 参 
数 在 Puppet 中 测试 这 些 快照 的 应 用 效果 ， 事 先 检 查 配置 文件 的 语法 是 
否 存 在 问题 


5.3.7 ”自动 配置 管理 工具 的 利 与 次 


从 早先 的 cfengine 到 近期 的 Puppet， 这 些 都 是 著名 的 开源 (OSS) 自动 配置 
工具 。 这 些 工具 虽然 看 起 来 非常 方便 ， 但 在 实施 时 可 能 会 遇 到 一 些 问 题 。 


目 动 配置 工具 听 起 来 确实 征 个 很 不 错 的 选择 ， 但 实际 使 用 时 却 非常 麻烦 。 
以 下 整理 了 使 用 该 工具 时 可 能 会 遇 到 的 状况 。 


。 从 本 质 上 来 说 这 并 不 是 什么 创新 的 东西 


目 动 配置 工具 只 是 将 原 有 手动 配置 的 工作 目 动 化 ， 仅 此 而 已 。 当 然 人 
们 通 单 不 想 改变 目前 已 存 的 工作 流程 


。 要 记 的 东西 很 多 ， 非 常 麻烦 
在 使 用 目 动 配置 工具 配置 应 用 程序 的 时 候 ， 不 仅 要 记 住 应 用 程序 的 配 


置 方法 ， 还 必须 为 应 用 程序 的 配置 做 一 些 准 备 工 作 。 香 般 让 人 怀疑 这 
么 做 有 价值 


nn 
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通常 在 自动 配置 工具 托管 的 配置 文件 中 ， 不 能 人 为 地 修改 这 些 配 置 文 
件 ， 如 铬 修改 ， 束 极 易 导致 故障 。 例 如 某 天 你 在 运行 目 动 配置 工具 

时 ， 无 意 间 禾 盖 了 手动 修正 的 部 分 ， 这 时 不 仅 系 统 瘫 痪 了 ， 自 动 配置 
工具 也 可 能 没 法 运行 了 ， 这 种 情况 很 有 可 能 发 生 。 而 且 一 旦 发 生 ， 处 
理 起 来 驶 会 非常 坏 手 。 当 过 到 此 类 故障 时 ， 根 本 没有 充分 的 时 间 去 调 
整 配置 ， 如 果 处 理 故 障 的 人 员 对 这 些 配置 参数 理解 得 不 够 充分 ， 那 勿 
忙 修改 可 能 会 埋 下 隐患 


这 样 看 来 ， 目 动 配置 工具 的 几 端 好 像 太 大 了 ， 但 为 了 对 大 量 服务 器 进行 融 
效 的 管理 ， 自 动 配置 工具 就 很 有 存在 的 必要 。 例 如 在 变更 成 百 上 千 台 服务 
俐 有 sshd_config 的 配置 文件 时 ， 利 用 配置 工具 天 可 以 轻松 地 完成 操作 ， 这 
真是 提高 效率 的 法 到 啊 。 

在 应 用 这 种 目 动 配置 工具 时 ， 哪 里 目 动 哪里 手动 是 个 重要 的 问题 。 然 而 ， 

这 个 问题 并 没有 什么 一 般 性 的 标准 ， 通 第 要 根据 应 用 目 动 配置 工具 的 设备 
规模 和 管理 人 员 的 干劲 来 决定 。 


我 们 的 目标 是 : 使 用 目 动 配置 工具 ， 并 维持 民 好 的 运行 状态 。 通 第 比较 适 
合 使 用 目 动 配置 工具 的 有 以 下 两 种 情况 : 


。 设 备 的 台数 很 多 时 
。 手动 配置 容易 产生 芷 漏 时 


5.4 ”守护 进程 的 工作 管理 


5.4.1 ”守护 进程 的 异常 终止 


通 第 在 系统 启动 时 都 会 自动 启动 守护 进程 (Daemon) ， 但 万 一 在 服务 器 运 
行 过 程 中 守护 程序 意外 终止 ， 那 会 造成 多 么 严重 的 事态 呢 ? 若 Web 服务 

器 、 邮 件 服务 器 等 服务 意外 终止 的 话 倒是 很 容易 察觉 ， 但 察觉 守护 进程 等 
的 异常 束 比较 困难 。 


虽然 在 发 生意 外 情况 时 ， 有 一 些 自动 重启 的 安全 措施 “ ， 但 /etc/init.d 中 大 
多 数 的 局 动 脚 本 可 能 都 不 具备 重 局 的 功能 。 此 外 ， 在 对 各 个 局 动 脚本 进行 
进程 监控 的 同时 添加 重 狐 局 动 的 处 理 是 比较 麻烦 的 。 


Daemontools 


| 2 例如 MySQL 所 附带 的 mysqld_safe 脚本 等 。 


这 样 ， 一 个 叫 作 daemontools 3 的 工具 束 应 势 而 出 了 。 该 工具 解决 了 守护 
流程 的 过 全 理 问 题 。 本 书 中 我 们 束 来 介绍 一 下 daemontools (0.76 版 本 ) 
YY 用 世 I O 〇 


13 URL http://cr.yp.to/daemontools.html 和 daemontools 类 似 的 工具 还 有 runit (http:/smarden.org/runit/ 


5.4.2 daemontools 


daemontools 工具 是 一 1 它 负 责 管理 守护 进程 的 开始 、 结 
束 、 重 新 启动 ， 以 及 进程 异 党 终止 时 的 目 动 启动 等 工作 。 


daemontools 是 通过 若干 个 程序 联合 对 守护 进程 进行 监控 和 管理 的 ， 具 体 请 
参阅 图 5.4.1。 


svscanboot 


图 5.4.1 daemontools 的 概要 图 


首先 ，svscanboot 启动 svscan。svscan 对 指定 的 目录 (默认 是 /service) 进行 
监控 ， 在 增加 了 新 的 守护 进程 的 情况 下 启动 svscanboot 。 supervise 运行 run 
文件 ， 通 过 run 文件 启动 守护 进程 。 因 为 J 次 只 能 对 一 个 守护 进 
程 启动 ， 在 此 由 svscan 对 多 个 supervise 进行 管理 。 

使 用 svc 命令 可 以 通过 supervise 传送 信号 到 守护 进程 。 

使 用 daemontools 的 原因 

使 用 daemontools 有 以 下 两 个 原因 : 

@ 在 进程 终止 的 情况 下 ， 能 够 快速 地 自动 重启 

@ 能 够 简单 地 创建 守护 进程 

关于 第 一 个 原因 ， 在 守护 进程 终止 的 情况 下 ，supervise 能 通过 监控 察觉 并 
迅速 地 重新 启动 ， 这 一 优势 非常 突出 。 此 外 还 可 以 防止 没有 注意 到 守护 进 
程 异常 终止 的 情况 出 现 。 


a 系 因 ， 通 常情 况 下 ， 要 作为 守护 进程 运行 ， 需 要 进行 各 种 处 理 
H: 


4 在 菜 些 操作 系统 中 ， 也 存在 集中 进行 这 些 处 理 的 daemon(3) 画 数 。 

。 从 控制 端 断 开 

。 将 当前 目录 变更 为 根 目录 (/) 

。 将 标准 输入 输出 重 定向 到 /dev/null (或 者 其 他 文件 ) 
稍微 有 些 棘手 。 


但 如 果 使 用 daemontools， 只 要 满足 某 个 条 件 (详情 后 述 ) ， 任 何 程序 都 可 
以 作为 守护 进程 。 赶 快 试 试 目 己 编 写 监控 脚本 来 创建 守护 进 程 吧 。 


成 为 守护 进程 的 条 件 .…… 在 前 台 运行 


在 上 下 中 提 到 了 使 用 daemontools 创建 守护 进程 需要 满足 某 个 条 件 ， 这 个 条 
件 就 是 “在 前 台 (Foreground) 运行 ” 


httpd、sshd 这 些 一 般 的 守护 进程 ， 由 于 是 在 后 台 进 行 folk 操作 的 ， 因 此 不 
在 daemontools 的 管理 下 。 和 守护 进程 中 提供 了 在 前 台 运 行 的 选项 (例如 sshd 


中 的 -D 选项 ) ， 否 则 就 需要 使 用 daemontools 自 带 的 fghack 工具 了 。 


在 自行 编写 守护 进程 的 情况 下 ， 只 需 使 用 while 或 for 进行 无 限 循环 ， 在 程 
序 不 终止 的 前 提 下 ， 在 前 台 持 续 运 行 。 


另外 ，daemontools 中 还 附带 了 优秀 的 日 志 收 集 工具 multilog 。 但 要 使 用 
multil0g ， 需 要 将 守护 进程 的 标准 给 出 或 祭 准 错 误 答 出 ) 输出 到 日 志 
5.4.3 ”守护 进程 的 管理 方法 

下 面 介绍 守护 进程 的 创建 、 终 止 和 重启 的 操作 方法 。 

创建 守护 进程 

此 处 将 需要 创建 的 守护 进程 命名 为 “xxxd”。 


首先 ， 请 先 创建 一 个 放置 这 些 守护 进程 文件 的 目 了 未。 使 用 这 一 目 永 来 整理 
有 关 革 护持 程 的 文件 ， 可 以 方便 后 期 管理 。 具 体操 作 方法 如 下 : 


。 /etc/daemon 一 放置 守护 进程 的 子 目 录 

。 /etc/daemon/xxxd 一 xxxd 用 的 文件 夹 
接 下 来 ， 创 建 supervise 运行 的 /etc/daemon/xxxd/run 文件 。 这 是 一 个 典型 的 
run 文件 ，run 文件 通过 shell 脚本 进行 有 效用 户 的 变更 及 环境 变量 的 配置 
后 ， 就 可 针对 程序 使 用 exec 命令 启动 相应 的 守护 进程 。 


z 在 以 下 页 面 中 可 查看 run 文件 的 示例 脚本 ， 请 参考 。 
URL http://smarden.org/runit/runscripts.html 


代码 清单 5.4.1 中 展示 了 示例 代码 ， 以 下 进行 一 些 简 单 的 说 明 。 
@ 将 标准 错误 输出 重 定向 到 标准 输出 上 

@ 运用 后 面 的 指令 替换 掉 该 进程 

@ 变更 有 效用 户 

@ 重 设 环境 变量 ， 配 置 必 要 的 环境 变量 

© 大 env 子 目录 中 存在 文件 ， 则 据 此 设 定 环 境 变量 


@ 执行 守护 进程 的 程序 


若 需 要 使 用 multilog 工具 来 收集 日 志 ， 则 可 在 该 目录 下 创建 下 一 级 子 目 
录 log 和 文件 log/run (图 5.4.2、 代 码 清单 5.4.2) 。 


代码 清单 5.4.1 典型 的 run 文件 


#!1/bin/sh 
exec 2>&1 -©@ 
exec \ -© 
setuidgid USERNAME \ -© 
env - PATH="/usr/local/bin:$PATH" \ -©@ 
envdir ./env \ -© 
/usr/local/bin/xxxd -© 


# mkdir /etc/daemon/xxxd/1l10og 
# mkdir /etc/daemon/xxxd/l0g/main 
# Chown USERNAME /etc/daemon/xxxd/log/main 


图 5.4.2 使 用 multilog 的 情况 
代码 清单 5.4.2 /etc/daemon/xxxd/log/run 


#!/bin/sh 
exec setuidgid USERNAME mu]ltilog t ./main 


启动 守护 进程 


在 启动 守护 进程 的 时 候 ， 需 要 在 svscan 监控 的 目录 (默认 为 /service 目录 ) 
上 ,创建 指定 守护 进程 用 的 目录 的 符号 链接 ， 如 下 所 示 。 这 样 在 五 秒 钟 内 
就 应 该 会 运行 mn， 并 启动 守护 进程 。 


# ln -s /etc/daemon/xxxd /service/ 


停止 、 继 续 、 重 新 启动 守护 进程 


停止 、 继 续 、 重 新 启动 守护 进程 的 了 时候， 请 使 用 daemontools 中 自 带 的 svc 
命令 ( 表 5.4.1) 。 


表 5.4.1 停止 、 继 续 、 重 新 启动 


SVC -d 


i i 
/service/xxxd 发 送 TERM 信 号 结束 进 星 ， 此 处 


svc -u 若 进 程 不 存在 则 启动 进程 ， 若 进程 处 于 停止 状态 则 让 进程 
/service/xxxd 继续 运行 


SVC -t 
/service/xxxd 


发 送 TERM 信 号 


停 用 守护 进程 
若 需要 停 用 守护 进程 ， 在 删除 符号 链接 后 ， 需 要 使 用 svc 命令 释放 


supervise ° 


# cd /service/xxxd 
# rm /service/xxxd 
# SVC -dx . lo0og 


+ 此 外 ， 以 下 内 容 也 需要 释放 


# mv /service/xxxd /service/ .xxxd 


# svc -dx /service/.xxxd /service/.xxxd/l10og 
# rm /service/.xxxd 


发 送信 号 


在 表 5.4.1 中 写 明 了 使 用 svc 命令 可 以 发 送 TERM 信和 号， 而 其 他 的 信和 号 也 
同样 可以 发 送 ( 表 542) * 


表 5.4.2 能 够 使 用 svc 命令 发 送 的 信号 


Keepalived ...... run 文件 的 例子 @ 


这 里 介绍 两 个 run 文件 的 例子 。 第 一 个 是 运用 daemontools 管理 keepalived 
时 的 run 文件 ， 具 体 如 代码 清单 5.4.3 所 示 。 


代码 清单 5.4.3 ”keepalived 用 的 run 文件 


#!/bin/sh 
exec 2>&1 
exec /usr/local/sbin/keepalived -n -S 1 


这 里 Keepalived 指定 了 -n (--dont-fork ) 选项 以 在 前 台 运 行 ， 在 使 用 
daemontools 管理 的 情况 下 可 以 使 用 该 选项 。 此 外 ， 在 这 个 例子 中 ， 并 没有 


使 用 multilog 来 记录 日 志 ， 而 是 使用 了 syslog 的 程序 模 决 (Facility) 
LOCAL1 进行 输出 。 在 无 一 服务 器 无 法 记录 日 志 的 情况 下 ， 或 者 区 中 要 将 日 
人 情况 下 ， 可 以 使 用 机 将 日 志 放 到 syslog 服务 器 中 进行 记 


自 编 的 监控 脚本 ..……. run 文件 的 例子 @ 


第 一 个 是 介绍 运用 daemontools 管理 目 编 的 监控 脚本 的 例子 。 代 码 清单 5.4.4 
是 run 文件 ， 和 代码 清单 5.4.3 的 处 理 是 相同 的 ° 


代码 清单 5.4.4 ”上 自 编 的 监控 脚本 使 用 的 run 文件 


#!1/bin/sh 
exec 2>&1 
exec \ 
setuidgid monitor \ 
env - PATH="/usr/local/bin:$PATH" \ 


envdir ./env \ 
/usr/local/bin/monitor-ping 


接 下 来 是 代码 清单 5.4.5。monitor-ping 是 监控 脚本 的 代码 (shell 脚本 ) 。 
这 里 的 重点 是 要 进行 无 限 循环 (while true; do ) 以 确保 持续 运行 ， 但 
此 处 若 全 力 进行 无 限 循环 可 能 会 占用 主机 过 多 的 资源 ， 可 以 通过 sleep 设 
置 一 定 的 间 舱 。 


代码 清单 5.4.5 ”监控 脚本 的 代码 (monitor-ping) 


#1/bin/sh 


[ "$DEBUG" = '1' ] && TRACE='echo DEBUG:' || TRACE=: 
INTERVAL=${INTERVAL :=5} 


$TRACE "TARGET_HOSTS: $TARGET_HOSTS" 
$TRACE "INTERVAL: $INTERVAL" 


alert() { 
host=$1 
# TODO: implement 
echo "$host is down!!" 


} 


monitor() { 
host=$1 
if ping -qn -c 1 "$host" >/dev/null 2>&1; then 


$TRACE "OK $host" 
else 
$TRACE "NG $host" 
alert $host 
Li 
} 


while true; do 
for h in $TARGET_HOSTS; do 
monitor $h 
done 
sleep $INTERVAL 
done 


此 外 ， 在 代码 清单 5.4.5 的 脚本 中 ， 还 引用 了 脚本 以 外 设 定 的 变量 
(TARGET_HOSTS、INTERVAL、DEBUG) 。 因 为 在 run 文件 中 使 用 了 


envdir ， 所 以 像 图 5.4.3 那样 在 env 目录 下 创建 与 变量 同名 的 文件 ， 并 将 
文件 的 内 容 设 为 变量 的 值 ， 环 境 变 量 吏 会 反映 到 monitor-ping 上 。 这 样 一 
来 ， 即 便 监 控 的 主机 数量 有 所 增加 ， 在 不 重 写 run 文件 或 监控 脚本 monitor- 
ping 的 情况 下 ， 也 能 改变 其 行为 。 


# echo 'host1 host2 host3' > env/TARGET_HOSTS 
# echo 10 > env/INTERVAL 
# SVC -t /service/monitor-ping 


图 5.4.3 使 用 envdir 指定 环境 变量 的 方法 


5.4.4 ”daemontools 的 实用 技巧 


最 后 介绍 使 用 守护 进程 工具 daemontools 时 的 技巧 : 控制 服务 的 启动 顺序 和 
常用 的 shell 函数 。 


控制 所 依赖 的 服务 的 启动 顺序 


在 使 用 daemontools 管理 的 守护 进程 和 使 用 rc 脚本 局 动 的 守护 进程 之 间 ， 
有 时 存在 局 动 顺 序 的 问题 。Dns 了 驶 是 其 中 一 例 。 


daemontools 的 开发 者 也 开发 了 一 个 名 为 djbdnsl 的 DNS 服务 絮 。 使 用 
daemontools 可 以 管理 djbdns， 在 通过 /etc/inittab 启动 daemontools (的 
svscanboot) 的 情况 下 ， 假 设 运用 rc 脚本 启动 守护 进程 ， 若 启动 时 不 能 解析 


DNS 和 名称， 就 可 能 会 造成 无 法 启动 或 运行 异常 等 情 ? 况 。 这 是 因为 在 
daemontools 管理 下 的 djbdbs 启动 前 ， 即 进行 DNS 名 称 解析 前 ， 需 要 确保 
rc 脚本 的 守护 进程 已 经 被 启动 。 


16 URL http://cr.yp.to/djbdns.html 


0 这 个 问题 需要 下 一 些 工 夫 。 以 下 介绍 使 用 KLab 的 方法 以 供 大 家 参 


请 参阅 代码 清单 5.4.6。 首先， 编辑 /etc/inittab， 启 动 svscanboot ; 接着 ， 启 
动 DNS 服务 器 ， 记 录 需 要 启动 的 守护 进程 的 启动 命令 ， 并 编写 相应 的 启动 
脚本 。 各 脚本 启动 的 服务 如 表 5.4.3 所 示 。 


代码 清单 5.4.6 /etcwinittab (摘录 ) 


SV:123456:respawn:/command/svscanboot 

LG:2345:wait:/etc/init.d/log >/dev/null 
SH:2345:wait:/etc/init.d/share >/dev/null 
WE:2345:wait:/etc/init.d/web >/dev/null 


表 5.4.3 ”启动 的 守护 进程 


启动 脚本 启动 的 服务 


/etc/init.d/share 网 络 文件 系统 (NFS) 的 客户 端 


/etc/init.d/web Web 服务 器 


另外 ， 在 这 个 启动 脚本 (etc/init.dllog) 中 ， 实 现 了 类 似 于 代码 清单 5.4.7 中 
的 waitns 的 处 理 。 这 样 在 确认 解决 了 DNS 名 称 解析 的 问题 后 ， 紧 接着 就 启 
动 了 服务 用 的 守护 进程 。 


代码 清单 5.4.7 waitdns 


waitdns() { 
while true; do 
dig @127.0.0.1 +short +time=1 {DOMAINNAME} >/dev/null 2>&1 && break 
done 


在 代码 清单 5.4.6 的 启动 脚本 中 有 三 行 waitt ， 虽 然 waitdns 只 对 第 二 行 
/etc/init.d/log 是 必须 存在 的 ， 但 为 了 保险 起 见 ， 无 论 是 之 后 的 
/etc/init.d/share 还 是 /etwinit.d/web， 都 还 是 写 上 为 妙 。 


1 wait 只 在 操作 系统 启动 时 执行 一 次 ， 作 用 是 等 待 第 4 项 指定 的 进程 执行 结束 。 
常用 的 shell 画 数 
以 下 介绍 笔者 在 实际 运用 中 常用 的 二 个 shell 函数 。 


daemonup 


在 i 中 创建 符号 链接 。 登 录 、 启 动 守 护 进 程 (代码 清单 5.4.8、 图 
5.4.4) “。 


代码 清单 5.4.8 ”daemonup 


daemonup( ) { 
[ -z "$1" ] && return 


case $1 in 
天 /六 ) 
DAEMONDIR=$1 
;7 
* 


DAEMONDIR=/etc/daemon/$1 
7 7 
esac 
[ -d $DAEMONDIR ] || { echo "no such dir: $DAEMONDIR"; return; } 


d=$(basename $DAEMONDIR) 
if [ ! -s "/service/$d" ]; then 
ln -snf ${DAEMONDIR} /service/ 
fi 
/command/svc -u /service/$d >/dev/null 2>&1 


# daemonup monitor-ping 
(或 者 ) 
# daemonup /path/to/monitor-ping 


图 5.4.4 ”daemonup 的 使 用 示例 
daemondown 


与 daemonup 的 作用 正好 相反 。 停 止 、 删 除 守护 进程 ， 并 从 /service 中 
删除 符号 链接 (代码 清单 5.4.9、 图 5.4.5) 。 


代码 清单 5.4.9 ”daemondown 


daemondown() { 
[ -z "$1" ] && return 
if [ -s /service/$1 ]; then 
mv /service/$1 /service/ .$1 
/command/svc -dx /service/.$1 
if [ -d /service/.$1/1og ]; then 
/command/svc -dx /service/.$1/10g 


下 

rm -f /service/.$1 
else 

echo "not found: /service/$1" 
二 于 


} 


daemondown monitor-ping 


图 5.4.5” daemondown 的 使 用 示例 


daemonstat 


显示 /service 下 的 守护 进程 的 启动 日 期 及 自 启动 以 来 经 过 的 时 间 (代码 
清单 5.4.10、 图 5.4.6) 。 该 函数 能 够 使 只 显示 经 过 秒 数 的 daemontools 
中 附 市 的 svstat 命令 的 输出 更 便于 阅读 。 


代码 清单 5.4.10 ”daemonstat 


daemonstat() { 


local -a ds 
if [ $# -gt © ]; then 
for i In "$@"; do 
ds[${#ds[@]}]=${i#/service/} 
done 


cd /service/ 
svstat ${ds[@]} | \ 
while read daemon state dsec pid sec dumy; do 


[ "$state" == "down" ] && sec=$dsec 

printf "%-20s %4s %8ds = %3ddays %02d:%02d:%02d, since %s\n" \ 
$daemon $state $sec \ 
$((sec / (60* 60* 24) )) \ 
$(( (sec / (60* 60 )) % 24 )) \ 
$(( (sec / 60) % 69 )) \ 
$((sec % 60)) \ 


"$(date -d "$sec seconds ago"” "+%y/%m/%d %T")"; 


done 


# daemonstat 

dhcpd: 7417649s 
dnscache .in: 5227391s 
dnscache.1o: 7417649s 
qmail: 5637954S 
qmqpd: 7417649s 
smtpd: 7417649s 
stone: 7417649S 
tinydns ,ex : 7417649s 
tinydns.in: 7417649s 


85days :27: i 07/10/05 
60days :03: i 07/10/30 
85days 2 i 07/10/05 
65days "05: i 07/10/25 
85days :27: i 07/10/05 
85days :27: i 07/10/05 
85days “27: i 07/10/05 
85days :27: i 07/10/05 
85days 27:: i 07/10/05 


图 5.4.6 ”daemonstat 的 使 用 示例 


5.5 ”网 络 引 导 的 应 用 一 一 PXE 、initramfs 


5.5.1 网络 引导 


网 络 引 导 (Network Boot) 是 指 在 设备 启动 时 从 网 络 上 获取 必要 的 资料 ， 
以 在 本 机 完成 启动 工作 。 一 般 情况 下 设备 启动 是 由 BIOS 从 本 地 的 硬盘 或 
CD-ROM 等 外 存 设备 调 取 启 动 时 必要 的 Boot Loader (引导 加 载 程序 ) 及 操 
作 系统 内 核 来 完成 的 。 网 络 引 导 则 与 此 不 同 ， 它 古 在 网 络 服务 右上 调 取 这 
些 必要 的 启动 文件 的 。 


网 络 引 导 的 特性 及 优势 


大 使 用 网 络 引 了 号 ， 在 机 器 启动 时 就 无 需 在 本 地 部 署 外 存 设备 (例如 硬盘 

等 ) 了 。 由 于 网 络 引 导 是 在 网 络 上 取得 Boot Loader 及 操作 系统 内 核 的 ， 因 
此 在 实际 应 用 中 ， 与 通常 的 情况 相 比 ， 系 统 的 灵活 度 会 有 所 增加 。 特 别 是 
在 网 络 引 导 上 应 用 initramfs 型 机制 时 ， 灵 活性 更 为 突出 。 


”关于 initramtfs 的 机 制 可 以 参考 Linux 的 附带 文档 。 具 体 可 以 首先 在 kernelorg 等 网 站 获取 Linux 
内 核发 布 包 ， 然 后 通过 linux-2.6.X.X/Documentation/filesystems/ramfs-rootfs-initramfs.txt 文件 就 可 以 
了 解 到 了 。 


initramfs 是 指 在 内 核 挂 载 到 根 文件 系统 及 局 动 nit 之 前 ， 仅 在 内 核 外 部 运行 
初始 化 的 机 制 。initramfs 的 主要 功能 是 在 将 内 核 挂 载 到 根 文件 系统 时 ， 将 所 
需 的 驱动 模块 加 载 到 内 核 。 


initramfs 的 实质 是 通过 cpio 工具 来 收集 初始 化 所 需 的 文件 ， 并 对 文件 进行 
gzip 压缩 。 在 Boot Loader 将 内 核 读 取 到 到 内 存 时 ， 该 文件 也 会 和 内 核 一 
起 被 配置 在 内 存 上 。 如 果 内 存 上 存在 initramfs 的 映像 ， 则 内 核 在 自身 初始 
化 结束 之 后 ， 挂 载 根 文件 之 前 ， 将 运行 initramfs 中 的 /init 程序 。 在 大 部 分 
情况 下 ， 和 通常 局 动 时 使 用 的 init 程序 不 同 ， 该 init 程序 是 shell 脚本 。 


网 络 引 导 中 ，Boot Loader 在 从 文件 服务 右上 读 取 内 核 时 ， 
initramfs。 这 意味 着 ， od rd by 


什 服务 占 器 准备 好 了 系统 的 内 核 及 initramfs， 就 可 以 让 任何 机 器 启 二 操作 条 


如 果 使 用 网 络 引 导 ， 启 动 操作 系统 时 就 不 需要 磁盘 了 ， 即 将 操作 系统 运行 
所 必要 的 文件 系统 都 存放 在 本 地 磁盘 之 外 ， 这 样 就 实现 了 典型 的 无 盘 系 

统 。 在 无 盘 系 统 中 ， 根 系统 文件 放置 在 NFS (Network FileSystem， 网 络 文 
件 系 统 ) 理 或 MFS 《内 存 文件 系统 ，Memory File System) 上 。 


”关于 在 Linux 操作 系统 中 将 NFS 服务 器 作为 根 文件 系统 使 用 的 详情 ， 在 内 核 的 说 明文 档 linux- 


2.6.X.X/Documentation/nfsroot.txt 中 有 详细 说 明 。 


通常 硬盘 部 十 机 帮 构 成 要 素 中 故障 率 最 高 的 部 件 ， 所 以 使 用 无 副 系统 的 
话 ， 设 备 的 故障 率 就 会 大 幅度 减少 。 


5.5.2 “网络 引导 的 行为 ..….. PXE 


以 下 让 我 们 了 解 一 下 网 络 引 导 的 行为 。 虽 说 网 络 引 导 可 以 基于 不 同 的 方式 
实现 ， 但 当今 x86 架构 中 占据 主导 地 位 的 还 是 Intel 开发 的 PXE (Pre- 
eXecution en en 20。pXE 实际 上 就 是 在 网 卡 (NIC) 上 植 入 了 扩展 
的 BIOS 模块 。PXE 的 引导 流程 如 下 (图 5.5.1) : 


20 URL http: seh pix.net/software/pxeboot/archive/pxespec.pdf 

PXE BIOS 自 相应 的 配置 项 目 ， 但 使 用 PXE 引导 需要 确保 DHCP 服务 器 的 正确 设 定 。 以 下 网 
页 中 有 PXELINUX 相关 的 说 明 ， 请 参考 。 

URL http://syslinux.zytor.com/pxe.php 


@ 通常 情况 下 的 BIOS 进行 初始 化 操作 。 在 这 个 过 程 中 浏览 扩展 的 BIOS， 
登录 PXE BIOS 


@ 在 启动 设备 上 激活 PXE， 控 制 转移 到 PXE BIOS 
© 接 到 控制 的 PXE BIOS 使 用 DHCP 获取 IP 地 址 等 信息 ， 准 备 IP 通信 


@ PXE BIOS 从 文件 服务 器 中 获取 Boot Loader 进行 启动 ， 继 续 控 制 。 文 
人 Boot Loader 的 文件 名 可 以 从 步骤 日 中 的 DHCP 服务 器 


@ Boot Loader 进行 启动 后 ， 从 步骤 @ 的 文件 服务 器 中 获取 Boot Loader 
自身 的 配置 文件 。 文 件 服 务 器 的 地 址 由 PXE BIOS 通知 给 Boot Loader 


@ Boot Loader 启动 内 核 后 ， 在 此 期 间 若 指定 了 相应 的 配置 文件 ， 就 会 从 文 
文件 ， 并 将 其 和 内 核 一 起 配置 在 内 存 上 ， 其 后 再 将 


文件 服务 器 
(TFTP rr } (EY Loader 
CBoot Loader Loader 的 配置 文件 CE 


根 文 件 系统 


Boot Loade 内 核 initramfs 


务 器 配置 文件 


Boot Loader 


文件 名 


Boot Loader 内 核 


IP 地 址 请 求 initramfs 


图 5.5.1 PXE 引导 的 流程 * 


※ 本 案例 中 使 用 了 initramfs 。 


如 琳 移 交 给 内 核 进行 管理 ， 这 之 后 下 与 平常 的 启动 没什么 区 别 。 使 用 的 系 
统 内 核 也 没 必要 特意 支持 PXE， 与 平常 一 样 使 用 就 可 以 了 。 


PXE BIOS 从 服务 器 中 获取 文件 时 ， 使 用 了 TFTP (Trivial File Transfer 
人 。 这 是 一 个 基于 UDP 的 简单 文件 传输 协议 ， 无 法 完成 验证 的 动 
以 下 对 PXE 引导 的 必要 事项 进行 归纳 整理 : 

。 支 持 PXE 引导 的 网 卡 


近期 的 服务 器 设备 上 安 闭 的 网 卡 应 该 都 文 持 该 技术 


。DHCP 服务 器 
为 PXE 引导 提供 必要 的 信息 
。TFTP 服务 器 


PXE BIOS 在 取得 必要 的 文件 时 使 用 ， 需 要 文 持 atftpd 等 的 TSIZE 选项 


。 支持 PXE 的 Boot Loader 


PXE 引导 中 需要 使 用 支持 该 技术 的 Boot Loader。 有 支持 PXE 的 
GRUB21 -PXEGRUB， 以 及 SYSLINUX”? 的 PXE 版 PXELINUX23 


。 内核 
没有 必要 为 PXE 引导 准备 特别 的 系统 内 核 
。 供 根 文件 系统 初始 化 使 用 的 系统 (initramfs) 


若 要 将 根 文 件 系统 托管 到 内 存 文 件 系 统 上 ， 则 此 项 必须 ， 除 此 以 外 的 
情况 下 ， 使 用 initramfs 就 能 够 灵活 构建 启动 系统 


。 根 文件 系统 (的 内 容 ) 


论 使 用 什么 样 的 根 文件 系统 ， 为 了 确保 系统 的 运行 ， 都 需要 事先 以 
条 种 形 式 准备 好 甩 需 的 文件 


21 URL http://www.gnu.org/software/grub/ 
2 URL http://syslinux.zytor.com/ 


23 URL http://syslinux.zytor.com/pxe.php 


搭建 无 盘 系 统 的 情况 下 ， 要 在 文件 服务 器 上 准备 供 根 文件 系统 使 用 的 文 
件 。 如 采 将 NFS 服务 右 直 接 作为 根 文 件 系 统 挂 载 ， 则 应 该 完 将 其 设 为 能 够 
进行 NFS 挂 载 的 形式 ， 大 要 将 内 存 文 件 系统 作为 根 文件 系统 使 用 ， 则 应 该 
先 将 其 设 为 便于 initramfs 初始 化 脚本 使 用 的 形式 扫 。 


24 在 笔者 管理 的 环境 中 ， 根 文件 系统 使 用 的 文件 是 通过 tar 打包 放置 到 外 部 不 能 访问 的 Web 服务 器 
上 的 (根据 启动 的 服务 器 的 目的 不 同 ， 会 准备 多 个 使 用 tar 打包 的 文件 ) 。Initramfs 的 初始 化 脚本 
通过 HTTP 取得 所 启动 的 系统 中 的 tar 文件 ， 并 在 内 存 文件 系统 上 解压 。 之 所 以 不 使 用 PXE 使 用 的 
TFTP 而 特意 使 用 HTTP， 是 因为 TFTP 的 文件 传输 速度 比 HTTP 要 慢 很 多 。 


5.5.3 “网络 引导 的 应 用 实例 
下 文 将 以 笔者 管理 的 环境 为 例 ， 辐 大 家 介绍 一 下 网 络 引 导 的 应 用 。 
负载 均衡 器 


负载 均衡 器 《就 无 疑问 使 用 了 LVS) 是 需要 关注 的 重点 。 每 当 便 盘 遭 遇 故 
障 时 ， 人 负载 均衡 束 会 停止 工作 ， 这 会 为 维护 工作 带 来 很 多 麻烦 ， 所 以 笔者 


使 用 无 盘 系 统 来 规避 此 问题 。 在 部 署 该 系统 后 ， 至 今 还 未 发 生 过 硬件 故障 
造成 负载 均衡 器 集 止 工作 的 情况 。 


当然 也 并 不 是 说 不 使 用 硬盘 束 可 以 避免 故障 。 万 一 出 现 了 故障 ， 可 以 在 众 
多 Web 服务 万 中 挪用 一 人 台 作 为 备用 机 。 要 使 Web 服务 器 完成 负载 均衡 器 的 
工作 ， 只 需 将 其 作为 负载 均衡 器 进行 网 络 引 导 即 可 泡 。 也 整 是 说 ， 仅 仅 重 
新 局 动 一 台 机 器 束 可 以 完成 修复 工作 。 


25 在 实际 操作 中 ，Web 服务 器 与 负载 均衡 器 可 能 位 于 链 路 层 (OSI 的 第 二 层 ) 的 两 个 不 同 的 网 络 
中 ， 鉴 于 在 修复 时 没 空 插 披 网 线 ， 因此 在 布线 时 就 要 注音 将 所 用 的 设备 设计 到 同一 网 络 中 。 如 果 需 
要 分 离 链 路 层 ， 可 以 使 用 VLAN ， 在 Web 服务 器 被 作为 负 载 均衡 器 使 用 时 ， 为 了 将 设 
加 入 到 所 需 的 VLAN 上 ， 就 要 变更 相应 的 交换 机 配置 


数据 库 服务 器 / 文件 服务 器 


数据 库 服务 器 / 文件 服务 器 也 可 以 应 用 网 络 引导 “。 但 需要 注意 个 能 将 数据 全 
存 到 内 存 文件 系统 上 ， 因 为 无 论 从 容量 的 角度 还 是 从 数据 的 永久 性 存储 的 
ee 因此 需要 将 数据 保存 到 使 用 RAID 元 余 的 便 盘 

将 根 文件 系 统 放 在 内 存 文件 系统 上 。 明 明 已 经 存在 RAID 磁 副 ， 还 竺 
演化 内 和 区 人 和 人 上 之 所 以 这 样 做 主要 是 为 了 简化 部 署 


即便 使 用 了 RAID 阵列 的 磁盘 ， 还 是 有 可 能 会 发 生 政 这 。 为 了 以 防 万 一 ， 
需要 准备 备用 机 ， 但 由 于 备用 机 一 般 不 会 用 到 ， 如 采 分 别 为 数据 库 服务 器 
和 文件 服务 器 准备 备用 机 的 话 ， 束 又 有 些 多 余 了 。 


虽然 数据 库 服务 器 和 文件 服务 器 所 运行 的 程序 及 其 行为 都 有 所 不 同 ， 但 在 
人 硬件 方面 两 者 的 结构 是 相同 的 ， 所 以 备用 机 可 以 在 两 者 之 间 通 用 。 当 其 中 
一 台 设 备 发 生 故 障 时 ， 束 将 备用 机 作为 故障 的 系统 进行 网 络 引 导 。 这 样 仅 
速 完 成 修复 。 


维护 用 的 引导 映像 

网 络 引导 不 仅 为 提供 服务 准备 了 必要 的 系统 ， 也 可 人 简化 维护 工作 。 

例如 ， 用 于 服务 器 设备 初始 化 设置 的 系统 、 用 于 内 存 测试 的 系统 (例如 启 
动 memtest** ) 、 替 换 故 障 磁盘 或 下 架 故 障 服务 器 时 用 来 删除 磁盘 上 的 文件 
的 系统 (例如 shred”) 等 ， 网 络 引导 提供 了 基于 各 种 目的 的 系统 。 


26 URL http://www.memtest86.com/ 


手段 将 数据 恢复 。shred 工具 通过 在 位 
导 更 为 困难 。 


”7 以 普通 方式 删除 磁盘 上 的 数据 时 ， 可 以 通过 一 些 数据 恢复 
盘 上 写 入 特殊 设计 的 Bit Pattern， 使 恢复 磁盘 数据 的 操作 变 和 


5.5.4 构建 网 络 引导 

最 后 介绍 配置 网 络 引 导 服 务 器 时 需要 注意 的 儿 点 。 

initramfs 的 通用 化 和 作用 的 识别 

在 使 用 initramfs 进行 多 种 系统 的 网 络 引 导 时 ， 知 能 让 initramfs 目 吴 实现 通 
用 化 ， 则 该 架构 更 为 可 取 。 这 是 因为 initramtfs 在 启动 内 核 之 后 运行 ， 难 以 
调试 ， 维 护 系 统 很 费 工 夫 。 在 initramfs 通用 化 的 情况 下 也 会 出 现 一 些 问 
题 ， 例 如 设备 需要 进行 合适 的 初始 化 操作 ， 在 此 initramfs 脚本 就 需要 判断 
将 其 用 于 哪个 系统 。 以 下 有 几 种 集 略 可 供 参 考 。 


第 一 种 方法 是 在 内 核 命 令 行 上 将 参数 传递 给 init 脚本 。 


1 指定 系统 
boot: db id =100 
1 指定 数据 库 服务 器 


内 核 的 命令 行 用 于 将 参数 传递 给 内 核 绢 定 的 驱动 ， 若 传 入 多 余 的 参数 束 会 
被 忽略 ， 并 不 会 产生 错误 。 传 递 给 内 核 的 命令 行 的 字符 串 可 以 通过 proc 文 
件 系 统 在 启动 后 获取 。 要 将 启动 系统 的 参数 通过 内 核 的 命令 行 传递 给 
initramfs， 可 以 根据 启动 的 系统 数量 创建 相应 个 数 的 Boot Loader， 并 在 启 
动 时 进行 选择 ， 或 者 在 每 次 启动 时 手动 输入 。 但 在 任何 情况 下 ，Boot 


Loader 都 需要 进行 对 话 操 作 。 

还 有 一 个 办 法 ， 就 是 initramfs 根据 启动 完毕 的 设备 分 配 的 IP 地 址 (或 者 相 
应 的 主机 名 ) 进行 判断 。 分 配 IP 地 址 是 DHCP 服务 器 的 工作 ”3”。DHCP 服 
务 器 为 了 对 启动 的 设备 分 配 特定 的 卫 地址， 会 事先 调查 该 设备 上 的 MAC 
地 址 ， 并 在 DHCP 服务 器 上 配置 IP 地 址 与 MAC 地 址 的 对 应 关系 。 


28 若 使 用 了 IPMI (请 参考 5.6 节 ) ， 则 可 以 通过 读 取 IPMI 上 设 定 的 IP 地 址 来 进行 使 用 。 


或 许 还 有 其 他 方法 ， 但 无 论 采 用 哪 种 方法 ， 部 要 根据 目 己 管理 的 环境 ， 搭 
建 出 使 用 便捷 、 方 便 扩展 的 架构 。 


无 盘 结构 中 需要 注意 的 事项 


搭建 无 盘 结构 时 ， 以 下 几 点 需要 守 


| t 


志 的 输 


第 一 点 是 指定 日 志 输 出 的 目的 地 。 一 般 情况 下 日 志 补 记录 在 本 地 硬盘 

中 ， 但 是 无 盘 结构 中 本 地 不 存在 硬盘 ， 因 此 者 需要 在 无 盘 系 统 中 保存 

必要 的 日 志 ， 可 以 将 这 些 日 志 传送 到 别 的 设备 上 进行 保存 。 简 便 的 传 

人 
污 


网 络 引 导 的 机 器 若 使 用 文件 服务 器 ， 将 日 志 输 出 到 文件 服务 器 上 会 非 
常 方便 。 但 在 这 种 情况 下 需要 注意 两 点 : 第 一 点 是 要 避免 多 台 设 备 回 
同一 个 文件 输出 日 志 ; 第 二 点 是 输出 日 志 的 数量 。 数 量 太 大 会 阻碍 文 
件 服务 器 的 IO， 有 停 于 文件 服务 器 原本 的 使 用 目的 。 


ei ts a 能 也 十 分 方便 。 在 
这 种 情况 下 ， 不 能 使 用 普通 的 syslog， 而 要 使 用 “syslog- ng HA SY 
送 方 就 可 以 在 发 送 日 志 时 使 用 日 志 过 滤 等 一 些 便利 的 功能 


那些 没有 必 有 要 保存 但 是 需要 在 发 生 故障 时 查看 的 日 志 ， 可 以 输出 到 内 
存 文件 系统 上 。 但 是 在 这 种 情况 下 ， 因 为 内 存 文 件 系统 的 容量 比 硬盘 
小 ， 所 以 要 留心 所 保存 的 日 志 的 数量 。 与 正常 情况 相 比 ， 存 储 在 内 存 
上 的 日 志 应 该 以 更 短 的 时 间 间 隔 进 行 转 储 (Rotate) ， 并 自动 删除 早先 
的 日 志 记 录 ， 这 就 是 “multilog” 的 便利 之 处 。 


multilog 是 daemontools 附 帘 的 程序 之 一 ， 在 接收 到 标准 输入 的 日 志 
后 ，multilog 会 进行 过 滤 加 工 ， 之 后 再 输出 。 在 将 日 志 输出 到 文件 时 ， 

multilog 会 指定 目标 文件 的 最 大 存放 空间 ， 者 超出 了 该 空间 的 容量 ， 就 
会 将 较 新 的 日 志文 件 转 储 ， 并 删除 最 早 的 日 志 。 如 此 一 来 就 保证 了 日 

志文 件 整体 的 数量 不 会 太 大 。 


一 一 文件 的 变更 管理 


第 二 点 是 根 文件 系统 所 使 用 的 文件 的 变更 管理 。 在 将 内 存 文 件 系统 作 
为 根 文件 系 统 使 用 的 情况 下 ， 即 便 在 局 动 状态 下 变更 文件 ， 重 新 启动 
后 也 还 是 会 还 原 。 因 此 ， 在 变更 文件 的 时 候 ， 同 时 要 变更 文件 真正 的 
实体 。 如 采 不 这 样 做 ， 在 发 生 故 障 的 情况 下 为 了 解决 问题 而 重新 局 动 
系统 时 ， 束 会 又 直到 别 的 故障 。 为 了 不 造成 这 样 的 麻烦 ， 应 该 明确 相 
应 的 实施 步 又 。 


在 笔者 管理 的 环境 中 ， 若 正在 运行 的 系统 中 有 和 需要 更 新 的 文件 ， 笔 者 
会 在 更 新 后 确认 其 行为 ， 并 将 其 复制 到 Master 上 。 为 了 以 防 万 一 ， 对 
旧 的 Master 也 会 进行 相应 的 备份 操作 。 男 外 ， 笔 者 还 准备 了 专 | 的 脚 
本 ， 以 使 这 样 一 连 串 的 作业 实施 起 来 更 加 侧 单 。 


2 有 关 syslog-ng 的 详情 请 参考 5.7 节 。 


30 有 关 daemontools、multilog 的 详情 请 参考 5.4 节 。 
Master 文件 的 安全 性 


Master 文件 的 安全 性 是 很 有 必要 留意 的 。 根 文件 系统 被 托管 在 内 存 文 件 系 
统 的 情况 下 ， 需 要 准备 根 文件 系统 的 Master 文件 。 该 Master 中 不 能 包含 密 
码 或 SSH 密 钥 等 一 般 用 户 无 法 访问 的 文件 。 这 是 因为 Master 文件 在 机 恬 启 
动 时 ， 会 从 文件 服务 器 中 进行 复制 。 此 复制 操作 由 initramfs 进行 ，initramtfs 
能 够 进行 复制 也 就 意味 着 一 般 用 户 也 可 以 进行 复制 。 


而 且 对 从 文件 服务 器 的 复制 进行 认证 是 没有 意义 的 。 这 是 因为 为 了 让 验证 
通过 ，initramfs 中 必须 包含 相关 的 认证 信息 ， 而 通过 TFTP 就 可 以 获取 
initramfs 包 ， 因 为 TFTP 中 是 不 需要 进行 认证 的 。 


5.6 “远程 维护 维护 线路 、Serial Console、IPMII 


5.6.1 轻松 实现 远程 登录 


追求 融 到 用 性 的 服务 器 在 大 多 数 情况 下 部 会 被 配置 在 数据 中 心 。 但 古 系 统 
管理 者 不 会 常 狂 在 数据 中 心 ， 特 别 是 小 规模 的 网 站 更 是 如 此 。 服 务 器 的 配 
置地 点 和 平时 系统 管理 者 所 在 的 地 点 相 分 离 ， 每 当 需 要 维护 服务 器 时 系统 
管理 者 部 要 跑 到 服务 絮 的 配置 地 点 ， 这 样 无 论 从 时 间 还 是 从 金钱 上 来 说 部 
苹 一 种 浪费 。 因 此 ， 通 肖 使 用 SSH 等 远程 维护 工具 来 完成 一 般 的 管理 操 


但 是 在 发 生 故 障 的 情况 下 ， 并 不 一 定 能 进行 远程 登录 。 因 为 远程 登录 是 以 
系统 正常 启动 为 前 提 的 。 本 节 中 将 介绍 在 出 现 故 障 或 系统 无 法 运行 的 情况 
下 实现 远程 维护 ”(Remote Maintenance) 的 方法 。 

5.6.2 ”网 络 故障 的 应 对 


首先 介绍 一 下 网 络 故障 时 进行 远程 维护 的 办 法 。 远 程 登录 位 于 数据 中 心 的 
服务 器 设备 时 需要 使 用 相应 的 网 络 线路 ， 该 网 络 线路 就 是 供 服务 使 用 的 商 


用 线路 。 这 条 商用 线路 连接 着 路 由 器 ， 路 由 器 通过 网 络 交 换 机 (Switching 
Hub) 和 服务 器 进行 通信 ， 因 此 对 网 络 故障 的 应 对 还 要 分 为 对 商用 线路 和 路 
由 套 故 障 的 应 对 ， 以 及 对 网 络 交 换 机 故障 的 应 对 。 


维护 线路 


为 了 在 商用 线路 和 路 由 器 (三 层 交 换 机 ) 发 生 故 障 的 时 候 也 可 以 进行 远程 
维护 ， 需 要 准备 一 个 其 他 系统 的 线路 。 这 里 把 该 线路 称 为 “维护 线路 ”。 大 
家 可 能 以 为 另行 准备 维护 线路 的 成 本 会 很 高 ， 而 事实 上 却 很 便宜 。 因 为 只 
有 在 商用 线路 不 能 登录 时 才 会 后 用 维护 线路 ， 一 般 情 况 下 使 用 家 用 低档 次 
的 线路 也 可 以 半 。 而 且 不 仅 在 出 现 故 障 的 情况 下 ， 在 平常 传送 大 量 文件 等 
使 用 商用 线路 会 对 服务 造成 恶劣 影响 的 情况 下 ， 也 可 以 充分 利用 维护 线 
路 ， 因 此 维护 线路 绝 不 会 补 浪 费 。 


31 商用 线路 与 维护 线路 如 果 使 用 了 不 同系 统 的 线路 ， 就 不 可 能 出 现 同时 无 法 使 用 的 情况 。 


在 笔者 管理 的 环境 中 ， 维 护 线路 的 结构 如 图 5.6.1 所 示 。 线 路 是 NTT 的 
BFLET'S (+ 该 套餐 的 公 网 IP 是 固定 IP) 。BFLET'S 的 光 网 线路 是 从 ONU 
(Optical Network Unit， 光 网 网 络 单元 ) 的 终端 上 引出 的 LAN 网 线 ， 该 
LAN 网 线 并 非 直接 连接 到 路 由 器 ， 而 是 通过 集线器 (Hub) 连接 到 数 台 服 
务 右 上 。 该 集线器 与 商用 线路 使 用 的 集线器 在 物理 上 完全 不 同 ， 丙 用 线路 
的 集 线 絮 禁止 使 用 VLAN 进行 分 割 ， 这 是 因为 如 果 集 线 器 发 生 故 障 ， 整 个 
结构 都 不 能 使 用 了 。 


图 5.6.1 维护 线路 的 结构 案例 * 
党 左 侧 是 商用 线路 ， 右 侧 是 维护 线路 。 


经 由 集 线 融 连接 到 ONU 维护 线路 的 服务 右 之 中 ， 实 际 上 有 一 台 是 授 入 了 
Internet 的 。 正 因为 该 服务 右 是 直接 连接 到 外 网 的 ， 因 此 可 以 不 受 丙 用 线路 
或 内 网 故障 的 影响 ， 在 任何 情况 下 都 能 登录 。 故 外， 之 所 以 采用 集线器 将 
多 台 服 务 右 连接 到 ONU 维护 线路 ， 主 要 是 考虑 到 在 变更 接 入 Internet 的 服 
务 器 时 ， 通 过 该 架构 可 以 不 用 特意 赶赴 数据 中 心 去 插 拔 LAN 网 线 ， 只 需 通 
过 控制 维护 线路 ， 束 能 解决 问题 了 。 


交换 机 故障 的 应 对 


即使 在 使 用 商用 线路 不 能 远程 登录 的 情况 下 ， 通 过 维护 线路 也 可 以 登录 一 
台 机 器 。 从 这 人 台 机 器 登录 到 另 一 台 机 器 时 需要 使 用 到 交换 机 。 接 下 来 束 介 
绍 一 下 当 交 换 机 发 生 故 障 时 的 应 对 方法 。 


交换 机 发 生 故 障 的 原因 主要 有 两 个 : 第 一 个 是 交换 机 目 身 的 原因 ， 这 种 情 
况 下 应 对 的 方法 束 古 重新 启动 交换 机 ， 第 二 个 是 传送 给 交换 机 的 报 文 的 原 
因 ， 这 种 情况 的 应 对 方法 是 切断 发 送 方 连接 的 端口 。 


网 络 交换 机 有 智能 交换 机 和 非 智能 交换 机 两 种 类 型 。 在 使 用 非 智能 交换 机 
的 情况 下 ， 不 能 远程 进行 这 些 操 作 ; 在 使 用 智能 交换 机 的 情况 下 ， 可 以 登 
录 交 换 机 自身 ， 从 交换 机 的 配置 接口 重启 交换 机 或 切断 端口 。 


登录 交换 机 的 方法 一 般 有 两 种 : 借助 Telnet、SSH 在 网 络 上 登录 ， 或 通过 
Serial Console (串口 控制 台 ) 登录 。 在 进行 一 般 的 操作 时 会 使 用 前 者 ， 即 网 
络 登 录 ， 因 为 它 的 啊 应 很 好 。 但 在 发 生 故 障 导 人 致 不 能 使 用 网 络 登录 的 情况 
下 ， 则 可 以 通过 Serial Console 登录 。 天 于 Serial Console 的 具体 内 容 我 们 将 
在 下 节 讲 解 ， 这 里 仅 对 Serial Console 的 连接 方式 进行 说 明 。 


为 了 在 商用 线路 发 生 故 障 时 也 能 够 登录 ， 就 需要 确保 设备 连接 到 维护 线 
路 。 因 此 这 里 将 交换 机 的 Serial Console 也 设置 为 可 以 从 这 个 设备 访问 。 为 
此 就 需要 把 所 有 交换 机 的 串 行 接口 (Serial Interface) 都 连接 到 该 设备 上 ， 
但 一 般 情 况 下 设备 上 最 多 有 两 个 串 行 接口 ， 因 此 如 有 果 要 连接 到 三 人 台 以 上 的 
交换 机 ， 就 需要 使 用 USB- 串口 转换 连接 器 (照片 5.6.1) 等 设备 。 


照片 5.6.1 USB - 串口 转换 连接 器 
5.6.3 Serial Console 


至 此 我 们 束 能 应 对 网 络 故障 了 。 接 下 来 介绍 一 下 在 设备 故障 导致 不 能 通过 
网 络 登录 时 ， 以 及 设备 重启 时 进行 远程 维护 的 方法 Serial Console 32 。 


| 32 Serial Console 在 Linux 中 的 使 用 可 以 参考 “Remote Serial Console HOWTO” 文 档 的 说 明 ， 该 文档 暂 


时 没有 中 文 版 。 
| URL http://tldp.org/HOWTO/Remote-Serial-Console-HOWTO/ 


Console (控制 台 ) 具体 来 讲 就 是 键盘 和 显示 器 ， 即 输入 与 输出 。 在 类 
UNIX 操作 系统 中 ， 大 部 分 的 管理 操作 都 无 需 使 用 GUL 只 需 通 过 文本 的 输 
入 输出 就 能 完成 控制 操作 。 而 在 Serial Console 中 ， 则 没有 使 用 显示 器 和 键 
盘 ， 而 是 通过 串 行 接口 将 其 他 设备 连接 到 想 要 管理 的 目标 设备 ， 进 行文 本 
的 输入 及 输出 的 3 。 


33 在 工作 站 普及 之 前 ， 一 台 UNIX 设备 连接 多 个 Serial Console 装置 (Dumb terminal， 非 智能 终 
端 ) 的 情况 很 常见 。 现 今 虽 然 非 智能 终端 已 经 没有 了 ， 但 是 其 功能 通过 软件 得 到 了 实现 和 应 用 。 


Serial Console 中 一 般 使 用 RS-232C 的 接口 。RS-232C 的 通信 是 一 对 一 的 。 
与 以 太 网 不 同 的 是 ， 这 里 使 用 一 根 网 线 只 能 完成 与 一 台 设 备 的 通信 ， 因此 
通信 双方 的 两 台 设 备 就 成 为 了 一 对 。 当 需要 通过 Serial Console 登录 某 人 台 设 
备 时 ， 首 先 需 要 远程 登录 与 之 成 对 的 设备 ， 之 后 再 在 目标 设备 上 登录 。 时 
然 使 用 起 来 有 些 磋 烦 ， 但 由 于 目前 大 部 分 服务 絮 中 都 有 一 两 个 RS-232C 的 
端口 ， 因 此 只 要 准备 好 网 线 34 ， 之 后 再 对 软件 进行 配置 就 可 以 使 用 了 。 


34 一 般 使 用 名 为 “Serial Cross Cable” 的 网 线 。 另 外 ，RS-232C 使 用 的 端口 分 为 9 个 针脚 和 25 个 针脚 
i 种， 在 服务 器 设备 上 使 用 的 是 9 个 针脚 的 RS-232C 。 


Serial Console 的 实现 


Serial Console 与 SSH 的 不 同 点 就 是 不 将 个 登录 的 一 端 称 为 服务 器 。 但 这 
2 我 们 将 被 探 作 的 一 端 称 为 服务 器 ， 将 进 ， 
端 。 


以 Serial Console 闻名 的 客户 端 软件 有 cu、ermit、minicom。 鉴 于 cu 是 历史 
悠久 的 程序 ， 可 能 比较 难以 上 手 。 若 单纯 使 用 Serial Console，minicom 则 
更 好 理解 。 另 一 方面 ，cu 或 kermit 不 仅 能 够 应 用 于 Serial Console， 也 可 以 
通过 串口 来 传送 文件 2 。 


3 使 用 了 名 为 xmodem、ymodem、zmodem 的 协议 。 虽 说 理论 上 可 以 向 任何 目标 传送 文件 ， 但 需要 
在 服务 器 上 准备 发 送 和 捞 收 3 的 相关 软件 。 


随 着 设备 的 启动 ，Serial Console 的 服务 器 3% 所 承担 的 功能 也 会 发 生变 化 。 
以 下 按 顺 序 分 别 说 明 BIOS、Root eo ` 操作 系统 、gentty 的 行为 。 


36 这 里 没有 具体 列举 出 来 ， 其 实 上 述 交 换 机 就 是 Serial Console 的 服务 器 。 


。 BIOS 


如 果 是 服务 器 设备 上 搭载 的 BIOS， 则 具有 “控制 台 重 定向 ” (Console 
Redirection) 的 功能 ， 即 在 设备 启动 时 ， 将 BIOS 输出 的 消息 以 及 
BIOS 的 配置 画面 ， 输 出 到 指定 的 串 行 接口 中 


e。 Root Loader 


lilo、 0 GRUB 等 通常 的 Root Loader 都 支持 Serial 
Console。 只 需 进 行 相应 的 配置 (图 5.6.2 @) ， 就 可 以 与 一 般 的 终端 控 
制 台 相同 ， 通 过 Serial Console 访问 Boot Loader 的 控制 画面 


。 操作 系统 


大 部 分 的 类 UNIX 操作 系统 都 会 在 系统 启动 时 执行 的 初始 化 脚本 输出 
相应 的 信息 ， 这 里 会 将 此 类 信息 输出 到 Serial Console 上 。 如 果 是 
Linux 操作 系统 ， 则 可 以 在 内 核 的 参数 中 指定 Serial Console 作为 默认 
的 控制 台 (图 5.6.2 @) 


。 getty 


在 类 UNIX 操作 系统 中 ， 控 制 台 的 登录 是 使 用 名 为 getty?” 的 程序 来 进 
行 操作 有 的 ，Serial Console 的 登录 也 同样 使 用 getty 


3 准确 地 说 ，getty 通过 监控 指定 的 接口 ， 若 发 现 有 信息 输入 ， 就 进行 Login 程序 的 登录 操作 。 


default=0 

timeout=10 

serial --UNit=1 --Speed=19200 -word=8 --parity=no --stop=1 ”< 
terminal --timeout=30 console serial 一 各 


title Linux (Console Mode) 
root (hdo,o) 
kernel /vmlinuz ro root=/dev/sda3 console=ttyS1,19200n8 console=tty0 


-© 
title Linux (Serial Mode) 

root (hdo,o) 

kernel /vmlinuz ro root=/dev/sda3 console=tty0 console=ttyS1,19200n8 
-© 


图 5.6.2 基于 GRUB 的 Boot Loader 与 内 核 配 置 案 例 * 


※ 本 例 中 GRUB 的 版 本 是 0.99。 
@ 是 GRUB 自身 的 Serial Console 配置 ，@ 是 内 核 参 数 。 


getty 有 很 多 种 类 ， 其 中 入 部 4 分 都 能 够 处 理 从 Serial Console 的 登录 ， 但 这 里 
建议 使 用 mgetty。 通 党 一 启动 getty， 束 会 锁定 监控 的 网 络 接口 。 但 在 使 用 
mgetty 的 情况 下 ， 只 第 在 局 动 时 附加 - -Tr 选项 ， 或 者 在 配置 文件 
(mgetty.config) 中 选 定 “*direct yes”， 就 可 以 在 不 锁定 网 络 接口 的 情况 下 正 
常 执行 3 (代码 清单 5.6.1) 。 据 此 ， 仅 仅 通过 一 个 Serial 连接 ， 即 使 是 在 
mgetty 监控 的 情况 下 ， 也 可 以 使 用 客户 端 程序 访问 成 对 设备 的 Serial 


Console 。 


38 若 启动 1ogin， 就 会 锁定 网 络 接 


代码 清单 5.6.1 mgetty.config 的 例子 * 


port ttySoO 
Speed 
direct 
blocking 
data-only 
need-dsr 
toggle-dtr 


ignore-carrier 
login-time 
term 


※ 该 例 中 mgetty 的 版 本 号 是 1.1.31-Jul24。 
5.6.4 IPMI 


如 此 一 来 ， 在 服务 絮 不 能 进行 网 络 登 录 以 及 重启 操作 系统 时 也 可 以 进 行 远 
程 维 护 了 。 但 如 果 内 核 失 去 控制 ， 则 从 Serial Console 也 不 能 登录 了 。 在 这 
种 时 候 ， 如 林 设 备 和 在 吴 过 的 语 ， 就 可 以 手动 按 下 电源 按钮 以 强制 重启 设 

备 ， 但 远程 的 设备 则 不 能 这 样 操作 33 。 


3 大 部 分 的 数据 中 心 都 提供 了 代替 进行 这 一 简单 操作 的 服务 。 但 是 从 请 求 代为 执行 到 实际 执行 重启 
操作 中 间 需 要 一 段 时 间 ， 而 且 也 不 好 意思 每 次 都 请 求 代为 执行 。 


在 这 种 情况 下 ， 可 以 通过 网 络 控制 周遭 设备 的 电源 ， 这 就 是 IPMI 

(Intelligent Platform Management Interface) 40 。IPMI 是 intel 公司 开发 的 ， 

是 一 个 从 软件 出 发 来 控制 及 确认 设备 电源 状态 的 标准 。IPMI 毫 无 疑问 可 以 
在 局 域 网 的 设备 上 使 用 ， 同时 也 可 以 访问 网 络 上 的 其 他 设备 以 实现 相应 功 
能 。IPMI 是 通过 在 设备 上 安装 人 硬件 而 发 挥 作用 的 ， 因此 其 运 行 独 并 于 操作 
系统 。 进 一 步 说 就 是 IPMI 不 依赖 于 机 器 电源 的 开关 状态 ， 只 要 给 设备 提供 
电流 ， 使 用 IPMI 就 能 够 从 外 部 控制 设备 ，IPMI 残 好 像 是 独立 于 需要 控制 
的 目标 设备 的 小 设备 。 


4 有关 IPMI 的 详情 ， 请 查阅 各 硬件 的 说 明文 档 以 及 各 软件 的 网 站 : 
GNU FreeIPMI URL http://www.gnu.org/software/freeipmi/ 

IPMItool URL http://sourceforge.net/projects/ipmitool/ 

ipmiutil URL http://sourceforge.net/projects/ipmiutil/ 


IPMI 的 功能 


笔者 在 表 5.6.1 中 对 IPMI 的 功能 进行 了 归纳 总 结 。 目 前 使 用 的 IPMI 的 版 本 
有 1.5 和 2.0， 其 中 任何 一 个 版 本 都 可 以 控制 电源 和 获取 服务 器 的 传感器 以 


及 事件 日 志 等 信息 。IPMI 2.0 引 人 注 目的 地 方 是 引入 了 Serial over LAN 
(SoL) ， IPMI 访问 服务 器 的 Serial Console 的 功能 。 使 用 Sol 束 
可 以 不 受 串联 线路 的 限制 ， 从 网 络 上 的 任意 设备 都 能 够 访问 Serial Consol。 


表 5.6.1 IPMI 的 功能 


局 的 转速 、 温 度 、 电 源 电压 


阿 汪 


看 门 狗 定时 器 (WDT，Watch Dog Timer) 


Serial over LAN。 在 1.5 版 本 中 需要 根据 情 ?} 


国 国 区 天 
。 通信 加 


使 用 IPMI 


要 使 用 IPMI， 首 先 需 要 在 设备 上 安装 IPMI 的 功能 。 安 净 的 方法 根据 设备 
的 不 同 存在 差异 。 有 的 设备 原本 就 配备 IPMI 的 功能 ， 这 时 需要 先 确 认 该 设 
oo IPMI 功能 的 相关 选项 〈 例 如 所 需 的 端口 等 ) ， 有 具体 可 以 询问 硬件 制 
造 商 。 


用 来 访问 IPMI 的 软件 ， 有 的 是 由 硬件 制造 商 发 布 的 ， 有 的 是 开源 的 

(OSS) ?全 件 制造 商 发 布 的 软件 有 时 只 能 在 同一 制造 商 的 硬件 上 使 用 ， 
点 需要 。 而 开源 的 软件 则 不 依赖 于 操作 系统 及 硬件 制造 商 ， 圈 此 使 > 

村 起 来 术 为 便利 ， 开源 的 IPMI 客户 端 软件 有 FreeIPMI、IPMItool、IPMIutil 


i 


5.6.5 “总结 


这 里 介绍 的 内 容 并 不 全 面 。 但 是 鉴于 引入 该 技术 的 成 本 较 低 ， 而 且 在 平常 
的 管理 操作 中 也 能 够 方便 地 使 用 ， 因 此 引入 该 技术 绝 不 会 造成 亏损 。 当 
然 ， 也 有 很 多 类 似 的 其 他 技术 ， 例 如 Magic SysRq、 看 门 狗 定时 器 、kdump 
和 请 尝试 使 用 多 种 拉 术 ， 以 创造 出 更 加 便于 管 
理 的 环境 。 


5.7 ”Web 服务 器 的 日 志 处 理 


cron 、 rotatelogs 


5.7.1 Web 服务 器 日 志 的 分 拣 . 收 集 


在 真正 开始 整理 分 流 环境 提供 服务 后 ， 为 了 统计 访问 或 分 析 故 阶 ， 使 用 日 
志 的 情况 会 相应 地 增加 。 因 为 在 分 流 环境 中 是 由 多 个 Web 服务 右 文 撑 一 个 
服务 的 ， 因 此 日 志 也 会 根据 服务 郁 的 台数 被 分 流 输出 。 但 是 从 日 志 分 析 、 
保存 的 角度 来 看 ， 将 这 些 日 志和 集中 在 一 处 是 比较 理想 的 。 本 节 束 将 对 日 志 
的 分 拣 、 收 集 进行 说 明 ， 讲 述 Web 服务 器 (Apache) 的 日 志 的 分 拣 、 收 集 
方法 ， 该 方法 对 其 他 日 志 也 同样 适用 。 


5.7.2 “分 拣 与 收集 


日 志 的 分 拣 与 收集 是 两 个 不 同 的 概念 。 这 里 所 讲 的 分 拣 是 指 经 常 把 Web 服 
务 妖 输出 的 日 志 制 除 无 关 的 部 分 后 ， 将 相关 内 容 梳 理 并 归纳 整理 到 一 个 文 
件 中 ; 而 收集 则 是 指定 期 对 各 服务 絮 输 出 的 日 志 进 行 收 集 并 保存 。 二 者 的 
区 别 在 于 各 目的 目的 和 行为 存在 差异 。 


经 党 对 日 志 进 行 分 拣 的 目的 在 于 把 握 服 务 器 在 任意 时 间 点 的 运行 状况 。 例 
如 当 改 障 发 生 的 时 候 ， 束 可 以 对 具体 哪个 机 需 出 现 了 问题 进行 确认 ， 还 可 
以 粗略 地 统计 服务 器 的 访问 状况 ， 即 瞬时 PV， 以 及 用 户 数 等 关联 信息 。 也 
忠 古 说 ， 发 生 了 什么 、 在 何 处 发 生 的， 都 可 以 通过 日 志 进 行 了 解 。 


男 一 方面 ， 收 集 日 志 的 主要 目的 是 统计 、 分 析 和 保存 。 服 务 器 运 维 中 最 基 

本 的 就 是 对 Web 服务 器 、AP 服务 器 的 日 志 进 行 整理 分 析 ， 因 此 需要 以 日 、 

周 、 月 等 多 种 时 间 跨 度 为 单位 的 日 志 信息 。 而 如 果 需 要 的 日 志 分 散在 各 

人 
比较 便于 操作 。 


syslog 、 syslog-ng 、 


即便 都 是 将 日 志 集 中 在 一 处 ， 日 志 的 分 拣 和 收集 还 是 存在 区 别 ， 这 十 因 为 
二 者 的 日 志 的 精度 存在 差异 。 在 Web 服务 器 中 ， 随 着 访问 量 的 增多 ， 单 位 
时 间 内 输出 的 日 志 数 量 也 在 增加 。 在 访问 临时 出 现 高 峰 时 ， 为 了 确保 分 护 
到 所 有 的 日 志 并 加 以 保存 ， 保 存 日 志 的 硬件 就 需要 具备 稳定 的 性 能 。 然 
而 ， 以 应 对 突 发 状况 为 前 提 准 备 高 性 能 的 人 硬件， 这 从 成 本 上 来 看 很 不 合 
算 ， 因 此 这 里 的 分 拣 日 志 就 不 要 求 精 度 ， 并 另外 使 用 收集 的 方法 收集 在 各 
服务 器 本 地 上 输出 的 日 志 。 


分 拒 、 收 集 日 志 有 很 多 种 方法 。 例 如 ， 不 使 用 文件 方式 记录 而 是 在 数据 库 
中 进行 记录 。 大 在 数据 库 中 记录 日 志 ， 虽 然 搜 索 起 来 比较 方便 ， 但 管理 的 
经 费 也 会 随 之 增加 ， 通 单 我 认为 这 方法 吃力 不 讨好 。 下 面 笔者 束 把 在 实际 
管理 的 环境 中 采取 的 办 法 介绍 给 大 家 。 


5.7.3 “日 志 的 分 拣 .………. syslog 和 syslog-ng 


在 对 操作 日 志 进 行 分 拣 时 使 用 syslog 是 很 方便 的 。syslog 的 作用 是 在 类 
unix 操作 系统 中 建立 一 个 日 志 分 拒 中 心 。 接 下 来 瓯 癌 大 家 介绍 一 下 使 用 
syslog 来 分 拒 Apache 的 日 志 的 方法 4 。 


41 虽然 本 书 中 没有 介绍 ， 但 日 志 的 分 拣 也 可 以 不 使 用 syslog， 而 使 用 Apache 的 mod_log_spread 模 
块 来 实现 ， 具 体 在 《构建 可 扩展 的 Web 站 点 》 (Cal Henderson 著 ， 徐 宁 译 ， 电 子 工业 出 版 社 2008 
年 出 版 ) 中 的 第 10 章 有 详细 说 明 。 

若 需 了 解 mod_log_spread， 请 参考 以 下 链接 : 

URL http:/www.backhand.org/mod_ log_spread/ 


使 用 syslog 进行 日 志 的 分 拒 


Apache 中 除了 可 以 将 日 志和 输出 的 目的 地 记录 在 指定 的 文件 以 外 ， 也 可 以 将 
日 志 转 送 到 已 经 启动 的 其 他 程序 上 。 接 收 到 日 志 的 程序 可 以 根据 该 程序 本 
身 的 目的 处 理 该 日 志文 件 笃 。 另 一 方面 ，syslog 中 包含 logger 4 程序 ， 该 
程序 能 够 将 从 标准 输入 接收 的 操作 日 志 传 递 给 syslog。 通 过 配合 使 用 这 二 
者 ， 残 可 以 在 syslog 中 输出 Apache 的 操作 日 志 。 


4 Apache 中 将 日 志文 件 转送 到 其 他 程序 的 方法 请 参考 Apache 文档 的 CustomlogDirective 项 的 说 
明 oo 


4 有 关 从 Apache 接收 日 志文 件 的 logger 的 详情 ， 请 参考 附带 的 man 帮助 指令 。 


在 syslog 中 分 拣 的 日 志 都 被 设 定 了 程序 模块 (Facility) 和 优先 级 
(Priority) 分 。syslog 能 够 据 此 识别 日 志 ， 并 将 需要 的 日 志 输 出 到 指定 文件 
上 ， 或 将 日 志 转 送 到 其 他 设备 的 sysloy 上 。 即 使 是 使 用 syslog 将 Apache 中 


输出 的 操作 日 志 分 拣 到 特定 的 一 台 机 器 上 ， 也 要 使 用 程序 模块 和 优先 权 。 
也 就 是 说 ， 首 先 使 syslog 能 够 识别 Apache 中 输出 的 操作 日 志 ， 然 后 再 把 需 
要 的 日 志 转 送 到 日 志 服 务 器 (图 5.7.1) 。 


44 syslog 中 的 程序 模块 ， 换 句 话说 就 是 范畴 (Category) 。 事 先 设 定好 几 种 程序 模块 及 优先 级 ， 通 
过 syslog 输出 日 志 的 程序 会 在 输出 时 从 中 选择 合适 的 一 种 。 程 序 模块 的 例子 有 kern (用 于 内 核 ) 、 
mail (邮件 相关 ) 、daemon 〈 用 于 各 种 守护 进程 ) 等 。 优 先 级 的 例子 有 debug、error、emerg 等 。 


遇 


程序 模块 =B 
/优先 权 =2 


Avarlog/syslog 


图 5.7.1 使 用 syslog 分 拣 日 志 举 
※ 在 需要 分 拣 多 个 站 点 的 日 志 的 情况 下 ， 各 个 站 点 的 日 志 的 输出 目的 地 不 同 。 


syslog 有 时 可 能 会 无 法 正确 获取 操作 日 志 。 当 同一 个 日 志 被 连续 输出 时 ， 
syslog 还 是 会 坚持 将 其 分 拣 归 纳 到 一 个 日 志 中 ， 这 种 方式 不 适用 于 有 严密 性 
要 求 的 情况 ， 而 且 在 输出 大 量 的 日 志 时 会 造成 磁 表 IO 的 负担 。 因 此 使 用 
syslog 分 拣 的 日 志 只 在 发 生 问题 时 查找 出 现 问 题 的 设备 时 使 用 ， 或 者 被 单纯 
被 用 于 观察 站 点 的 趋势 。 


syslog-ng 


假设 现在 运 膏 了 多 个 站 点 ， 要 分 别 对 每 个 站 点 的 日 志 进 行 分 拒 。 在 类 似 这 
样 的 情况 下 ， 分 别 为 各 个 站 点 分 配 程序 模块 和 优先 级 会 花费 很 多 精力 。 此 
外 ， 因 为 程序 模块 和 优先 级 的 组 合 是 有 限 的 ， 所 以 能 够 配置 的 数量 就 会 有 
一 个 上 限 。 可 以 的 话 应 先 解决 Web 服务 器 使 用 的 程序 模块 和 优先 级 问题 ， 

但 是 这 种 情况 下 各 个 站 点 的 日 志 混 在 一 起 是 非常 及 烦 的 。 总 之 ， 理 想 的 方 


式 是 使 用 一 个 程序 模块 和 优先 级 来 传送 日 志 ， 在 输出 日 志 的 时 候 使 用 别 的 
信息 进行 区 别 ， 最 终 实 现 将 不 同 站 点 的 日 志 输 出 到 不 同 的 文件 中 。 


这 些 可 以 通过 syslog-ng 和 来 实现 。syslog-ng 是 syslog 的 升级 版 。 与 syslog 
相 比 ，syslog-ng 增加 了 很 多 便利 的 功能 ， 如 日 志 过 滤 、 日 志 转 储 、 目 动 生 
成 输出 日 志 的 目录 等 。 这 些 便利 的 功能 之 一 就 是 “ 宏 ”*”。 宏 可 以 展现 与 日 寺 志 
有 关 的 元 信息 ， 这 样 就 能 从 宏观 角度 去 了 解 这 些 日 志 所 包含 的 具体 信息 
syslog-ng 中 提供 的 宏 能 够 表示 当前 时 间 和 程序 模块 与 优先 级 、 输 出 日 志 的 
主机 、 输 出 的 日 志 中 设 定 的 标签 (程序 名 ) 等 。 在 syslog-ng 中 通过 使 用 
宏 ， 能 够 设置 输出 日 志 的 文件 各 。 也 就 是 说 ， 如 有 果 使 用 表示 标签 的 宏 作为 
输出 目的 地 的 文件 名 ， 束 可 以 使 市 有 同一 个 标签 的 日 志 在 同 一 个 文件 中 输 
° 日 志 的 转 储 也 可 以 通过 在 文件 名 中 使 用 表示 日 期 的 宏 来 实现 (图 5.7.2 


4 syslog-ng 是 在 以 下 链接 中 发 布 的 。 
URL http://www.balabit.com/network-security/syslog-ng/ 
与 正统 的 syslog 相 比 ，syslog-ng 的 配置 文件 的 编写 语法 可 能 比较 难以 掌握 。 以 下 是 有 关 syslog-ng 
的 中 文 介绍 及 应 用 实例 。 
URL http://baike.baidu.com/view/3426564.htm 
URL http://www.oschina.net/question/54100_32993 


日 期 : 10/21 
输出 主机 : kame 
程序 名 : usagi 
日 志 的 内 容 : 
"test log from kame” 


ANarliog/kame/usagi.acc.10-21 


Oct 21 06:27:24 kame usagi[123]: test log from kame 


图 5.7.2 syslog-ng 的 使 用 示例 * 

※ syslog-ng 可 以 在 配置 文件 中 使 用 宏 指定 文件 名 。 

5.7.4 日 志 的 收集 

收集 操作 日 志 的 最 重要 的 目的 是 保存 并 分 析 操 作 日 志 。 大 部 分 情况 下 ， 日 


志 分 析 是 一 天 进行 一 回 。 因 此 收集 操作 日 志 也 是 一 天 一 次 ， 在 早晨 服务 硕 
的 负荷 比较 低 的 时 候 ， 对 每 个 机 右前 一 天 的 操作 日 志 进 行 收集 。 在 笔者 管 


理 的 环境 中 ， 收 集 的 同时 也 会 将 各 机 器 上 的 以 前 的 日 志 有 删除。 而 且 还 会 将 
日 志 服 务 器 上 的 以 前 的 日 志 进 行 压缩 和 。 


46 这 样 一 连 串 的 动作 都 可 以 通过 脚本 实现 。 在 编写 脚本 时 ， 需 要 注意 发 生 错误 时 的 记录 及 修复 工 
外 志 解 析 程 序 检测 不 到 日 志 收 集 失 败 ， 就 会 将 只 解析 了 一 半 的 结果 进行 报告 ， 因 
束 会 造成 混 


除了 每 天 进行 日 志 分 析 之 外 ， 日 志 分 析 也 可 以 按照 一 定 的 时 间 周 期 进 

如 每 周 、 每 月 进行 一 次 。 而 且 还 可 以 从 新 的 角度 去 分 析 过 去 的 日 志 。 人 
这 束 需 要 随时 都 可 以 名 上 看 到 以 前 的 日 志 。 在 这 里 需要 留意 的 是 ， 未 压缩 
的 日 志 会 占用 大 量 的 磁盘 空间 ， 所 以 一 定 要 对 以 前 的 日 志 进 行 压 缩 。 即 使 
这 个 压缩 处 理 需 要 人 花费 较 长 时 间 也 没有 问题 ， 重 点 是 要 尽 可 能 地 将 其 压缩 
得 小 一 些 和 9 。 征 笔者 的 管理 环境 中 是 使 用 bzip2 来 压缩 并 保存 Web 服务 器 、 
AP 服务 器 的 日 志 的 ， 使 用 约莫 500GB 的 磁盘 空间 就 可 以 很 好 地 对 几 年 的 
日 志 进 行 保存 。 


多 在 日 志 的 文本 数据 中 ， 由 于 已 经 确定 好 了 输出 的 字符 串 模 式 ， 因 此 压缩 率 比较 高 。 例 如 某 网 站 的 
Apache 的 志 ， 使 用 bzip2 的 最 小 压缩 选项 ， 就 可 以 将 其 压缩 至 源 文件 的 1/10。 


Apache 日 志 的 转 储 .……… cron 与 rotatelogs 


鉴于 每 天 都 在 收集 日 志 ， 若 将 Web 服务 器 输出 的 日 志 按 天 进 4 了 划 分 ， 查 看 

起 来 应 该 会 非常 便利 。 因 为 Apache 本 喘 并 不 拥有 日 志和 轧 储 功能 ， 所 以 为 了 

输出 的 日 志 按 天 进行 转 储 ， 束 要 依赖 于 外 部 的 程序 。 这 里 有 两 种 
~ O 


一 种 方法 是 使 用 cron 对 日 志文 件 重 命名 及 重新 启动 Apache 。 因为 在 
Apache 工作 的 时 候 ， 日 志文 件 处 于 打开 的 状态 ， 仅 仅 在 中 途 重 命名 日 志文 
件 是 不 能 实现 转 储 的 ， 所 以 要 在 重 命 名 之 后 立 7 刻 重新 启动 Apache， 才 可 以 
实现 日 志 的 转 储 。 

第 二 种 方法 是 使 用 Apache 附带 的 rotatelogs 程序 和 。 即 存 目 忘 的 分 括 一 
中 提 到 的 ， 与 向 其 他 程序 转发 日 志 的 功能 配合 使 用 的 程序 。 rotatelogs 和 撤 
收 的 日 志 写 入 文件 ， 并 且 具 备 在 写 入 日 志 时 将 日 志文 件 转 储 的 功能 。 


rotatelogs 是 实现 Apache 日 志 转 储 的 方式 ， 使 用 方式 见 Apache 的 man 帮助 ， 也 可 参考 下 面 的 页 


URL http://httpd.apache.org/docs/2.0/programs/rotatelogs.htm 


遗憾 的 是 ， 无 论 使 用 哪 一 种 方法 ， 都 不 能 完全 实现 日 志 的 实时 转 储 。 使 用 
cron 的 情况 下 ， 重 新 启动 Apache 时 肯定 会 发 生 时 间 上 的 波动 。 虽 说 使 用 
rotatelogs 的 方法 比 起 使 用 cron 的 方法 在 转 储 时 具备 更 严密 的 时 间 判 定 。 但 


是 因为 Apache 从 收 到 请 求 到 生成 日 志 并 传递 给 rotatelogs 存在 延迟 ， 例 如 
即使 事先 设 定 在 0 点 进行 转 储 ， 也 有 可 能 发 生 昨 天 访问 的 日 志 被 输出 到 今 
天 的 日 志文 件 上 的 情况 。 


5.7.5 “日 志 服务 器 的 作用 与 构成 


日 志 服 务 句 的 作用 就 是 对 日 志 进 行 分 拒 和 收集 ， 并 将 收集 的 日 志 进 行 保 

存 。 除 此 以 外 ， 在 对 其 他 收集 来 的 日 志 进 行 分 拒 和 分 析 时 ， 也 会 使 用 到 日 

志 服 务 右 。 日 志 的 分 拣 收集 、 旧 日 志 的 压缩 、 日 志 分 析 等 都 是 比较 重要 的 

处 理 ， 因 此 提供 服务 的 服务 右 不 能 同时 承担 日 志 服 务 右 的 工作 。 男 外 ， 日 

0 
J 日 志 服 务 器 。 


笔者 的 管理 环境 中 准备 了 主 用 和 备用 两 台 日 志 服 务 占 。 备 用 的 日 志 服 务 器 
中 放置 了 备份 的 日 志文 件 ， 还 承担 了 在 主 用 的 服务 万 出 现 故 障 时 代 蔡 它 的 
作用 。 另 外 ， 对 于 按 月 或 按 年 分 拣 的 大 量 的 日 志文 件 来 次， 分 析 是 十 分 必 
要 的 ， 但 分 析 会 耗费 相当 程度 的 资源 ， 为 了 不 影响 日 第 的 日 志 分 拒 ， 可 以 
将 大 规模 的 日 志 分 析 放 到 备用 的 日 志 服 务 右 上 进行 。 


无 法 准备 专门 的 备用 服务 器 的 情况 下 ， 就 需要 将 日 志文 件 转移 保存 到 别 的 
设备 上 。 该 设备 不 一 定 要 在 数据 中 心 ， 使 用 维护 线路 将 日 志文 件 传送 到 办 
公 室 的 设备 上 也 是 一 种 方法 。 在 这 种 情况 下 ， 需 要 注意 日 志文 件 中 包含 的 
敏感 信息 。 
5.7.6 ”总 结 


An 一 吕 


本 下 笔 考 以 目 己 管 理 的 环境 为 例 介 绍 了 日 志 的 分 拒 和 收集 。 根 据 日 志 的 
容 和 操作 方法 ， 对 日 志 的 要 求 也 有 所 变化 。 例 如 在 一 些 站 点 中 可 能 需要 实 
时 获取 PV、 用 户 数 等 。 在 大 规模 的 站 点 中 ， 鉴 于 日 志 的 数量 过 多 ， 会 出 现 
保存 相对 麻烦 的 问题 。 当然 ， 根 据 站 点 的 不 同 ， 对 于 日 志 的 要 求 肯定 古 千 
蓉 万 别 的 。 即 使 是 同一 站 点 ， 随 着 站 点 目 身 的 成 长 ， 对 日 志 的 要 求 也 会 发 
生变 化 。 因 此 ， 获 取 日 志 的 处 理 也 要 根据 具体 情况 来 灵活 应 对 。 布 望 本 广 
的 内 容 能 够 对 您 有 所 帮助 。 


第 6 章 服务 后 台 一 一 目 律 的 基础 设 
施 、 稳 健 的 系统 


0.1 Hatena 网 站 的 内 容 
6.1.1 Hatena 的 基础 设施 


Hatenal 是 一 个 提供 博客 (Hatena Diary) 、 书 签 (Hatena Bookmark) 、 百 
科 搜 索 等 Web 服务 的 网 站 。 截 至 2008 年 2 月 ， 月 均 访 问 量 达到 了 970 万 
次 。Hatena 基于 其 目 身 的 理念 提供 了 独特 的 Web 服务 ， 同 时 也 建立 了 一 个 
特殊 的 基础 设施 。 


| 1 URL http://www.hatena.ne.jp 


在 Hatena 的 基础 设施 构建 方面 ， 始 终 坚 持 了 “ 目 我 原则 ”和 “开源 原则 ”这 两 
个 原则 (照片 6.1.1 一 照片 6.1.3) 。“ 自 我 原则 ”是 指 ， 不 购买 现成 的 服务 

独 ， 而 是 目 己 设计 和 组 闭 服 务 器 人 硬件 及 方案 。“ 开 源 原则 ”是 指 ， 在 服务 器 

上 操作 的 软件 几乎 全 部 都 是 OSS 开源 软件 。 男 外 在 目 行 编写 软件 或 为 软件 
附加 功能 时 ， 也 尽 可 能 地 利用 了 开源 社区 的 相关 技术 。 


照片 6.1.1 Hatena 网 站 的 服务 器 


照片 6.1.3 ”数据 中 心 的 内 部 情况 


截止 到 目前 ，Hatena 的 整个 基础 设施 已 拥有 约 350 台 服 务 器 。 其 中 提供 服 
务 的 基础 设施 主要 由 三 个 层次 构成 ， 即 反 向 代理 服务 器 、AP 服务 器 、 数 据 
库 服 务 器 ， 并 根据 负载 和 需求 添加 了 高 速 绥 存 服务 器 、 文 件 服务 器 或 批 处 
ne 。 日 志 服 务 咽 、 监 控 服 务 絮 、 资 源 服 务 絮 等 共享 的 服务 
厂 6.1.1) 。 


提供 服务 的 主 服 务 器 


图 6.1.1 Hatena 网 站 的 服务 器 构成 

正 是 因为 这 些 服务 句 集 群 每 时 每 秒 都 在 工作 着 ，Hatena 网 站 才能 够 持续 地 
提供 服务 。 本 章 将 介绍 Hatena 为 提高 基础 设施 的 稳定 性 、 和 营运 效率 、 用 电 
效率 和 可 扩展 性 等 所 做 的 努力 。 


6.1.2 ”可 扩展 性 和 稳定 性 


对 Hatena 这 样 每 天 都 要 处 理 海量 请 求 的 网 站 来 说 ， 通 过 进行 有 效 的 负载 均 
衡 来 维持 较 高 的 可 扩展 性 征 非常 重要 的 。 


Hatena 是 利用 LVS (IPVS) +keepalived 来 实现 负载 均衡 的 ， 在 此 准备 两 类 
服务 器 ， 将 使 用 VRRP 实现 元 余 的 主机 集群 作为 一 类 (图 中 的 共享 服务 
器 ) ， 将 各 反 回 代理 服务 器 、AP 服务 器 、 数 据 库 服 务 器 这 三 个 层面 的 服务 
器 作为 男 一 类 (图 中 提供 服务 的 主 服 务 器 ) 。 在 LVS 服务 器 的 存储 中 不 使 
普通 硬盘 ， 而 是 使 用 固态 人 硬盘 以 努力 降低 硬件 故障 率 。 男 外 ， 通 过 在 
LVS 中 利用 DSR 路 由 协议 ， 既 可 以 减少 通过 LVS 服务 妖 的 流量 ， 而 且 还 能 
将 各 层 服务 器 划 分 为 类 来 把 握 全 局 。 如 果 未 来 访问 量 进一步 增长 ， 也 可 以 
根据 情况 细 化 各 层 类 的 划分 以 方便 管理 。 


反 向 代理 


反问 代理 主要 使 用 的 是 Apache 2.2。 反 辐 代 理 代理 交接 了 多 个 后 端 模 块 ， 这 
里 不 使 用 mod_proxy_balancer， 而 是 使 用 mod_proxy 模块 来 进行 反 癌 代理 。 
负载 均衡 则 是 利用 上 述 的 LVS 技术 来 完成 的 。 上 此外， 和 AP 服务 器 之 间 通 

J Squid 实现 最 大 限度 的 缓存 ， 以 减少 AP 服务 器 和 数据 库 服务 器 的 负 


对 反 回 代理 Apache 还 实施 了 Dos 攻击 的 防范 策略 ， 即 利用 笔者 开发 的 
mod_dosdetector ”以 动态 检测 DoS 攻击 。 引 进 mod_dosdetector 之 前 ， 每 当 
受到 DoS 攻击 时 只 能 手动 添加 查找 攻击 源 IP 地 址 的 设 定 ， 实 际 解决 起 来 非 
常 复杂， 但 通过 引入 mod_dosdetector 模块 ， 就 可 以 动态 消除 攻击 ， 人 徐 单 的 
Dos 攻击 基本 不 会 造成 什么 影响 。 


? URL http://sourceforge.net/projects/moddosdetector/ 


在 Apache 的 染 构 中 ， 和 针对 一 个 请 求 ，worker 模式 下 会 为 其 分 配 线程 ， 
prefork 模式 下 会 为 其 分 配 进 程 ， 而 且 在 等 待 AP 服务 器 响应 期 间 ， 分 配 也 
不 会 被 释放 。 因 此 ， 在 收 到 大 量 请 求 的 情况 下 ， 就 算 AP 服务 器 的 负载 程度 
较 低 ， 也 有 可 能 会 使 用 掉 过 多 反 回 代理 的 资源 。 在 此 之 前 ， 在 Hatena 网 站 
的 书签 功能 中 ， 用 户 调 取 书签 的 API 就 发 生 过 这 个 问题 。 该 API 的 请 求 与 
其 他 请 求 相 比 数量 差距 巧 殊 ， 为 了 完成 API 的 处 理 ， 正 和 常 页 面 会 出 现 啊 应 
延迟 的 状况 。 因 此 ， 我 们 在 Apache 的 前 端 再 准备 一 个 不 同 架 构 的 Web 服务 
铬 lighttpd 作为 反 同 代理 ， 将 API 和 正常 的 请 求 分 类 ， 使 处 理 效率 得 以 所 
高 。 这 样 优化 架构 以 后 殊 能 快速 地 做 出 啊 应 了 。 


数据 库 


在 可 扩展 性 和 稳定 性 方面 ， 数 据 库 容易 成 为 瓶 贷 。Hatena 全 面 采 用 了 
MySQL 数据 库 。 初 期 阶段 的 Hatena 使 用 了 PostgreSQL， 之 后 很 快 便 转 到 
了 MySQL， 并 沿用 至 今 。2008 年 是 MySQL 4.0 系统 和 MySQL 5.0 系统 共 
存 的 状态 。 笔 者 个 人 希望 不 再 继续 使 用 淘汰 的 4.0 系统 ， 而 是 全 部 迁移 到 
5.0 系统 ， 但 因为 4.0 系统 和 5.0 系统 时 间 惟 的 记录 不 同 ， 要 想 全 部 迁移 到 
5.0， 必 须 重 写 应 用 程序 ， 所 以 不 太 容 易 进 行 。 


MySQL 采取 了 主 从 (Master-Slave) 同步 结构 ，Slave 集群 也 通过 LVS 实现 
了 负载 均衡 ， 当 其 中 一 台 Slave 发 生 故 障 时 ， 会 目 动 阻 止 请 求 发 往 遭 遇 故 障 
的 服务 右 ， 从 而 增强 了 可 用 性 。 


另外 ， 已 经 迁移 到 MySQL 5.0 的 数据 库 采 用 了 多 主 (Master) 结构 ， 通 过 
keepalived 切换 Active/Standby， 实 现 了 主 数 据 库 的 见 余 (图 6.1.2) 。 多 主 
结构 的 具体 设置 如 代码 清单 6.1.1 所 示 。 通 过 此 设置 ， 多 个 Master 就 变 成 
了 “ 互 为 主 从 ”的 关系， 彼此 的 写 入 会 被 传递 到 对 方 。 但 在 采用 多 主 结构 的 
情况 下 ， 指 定 auto increment 的 地 方 可 能 会 出 现 INSERT 冲突 的 问题 。 因 此 
MySQL 在 进行 autoincrement 时 ， 需 要 指定 增长 量 
(auto_increment_increment) 和 偏 移 量 (auto_increment_offset) ， 这 样 就 能 


够 在 多 主 结构 下 正确 使 用 auto increment 了 。 
发 送 到 数据 库 的 请 求 * 发 生 故 障 时 


发 送 到 数据 库 的 请 求 


互相 同步 


Master 的 Master 的 
数据 库 数据 库 
[Active 中 { Standby 


Standby ) m= ACtive ) 


—» 


在 不 影响 服务 的 情况 下 进行 维护 
图 6.1.2 MySQL 的 多 主 结构 
代码 清单 6.1.1 多 主 结构 的 配置 


e 服 务 器 A 


(192.168.1.1) 
server-id=1001 
master-host = 192.168.1.1 
master-user = repli 


auto_increment_increment = 16 
auto_increment_offset = 1 
e 服 务 器 B 


(192.168 .1.2) 
Server -Id=1002 
master-host = 192.168.1.2 
master-user = repli 
auto_increment_increment 
auto_increment_offset 


I ll 
DD 


此 外 ， 即 使 在 不 使 用 auto increment 的 数据 库 结 构 中 部 署 了 Active/Active 
(多 主 ) 配置 ， 根 据 应 用 程序 行为 的 不 同 ， 也 有 可 能 会 因为 Duplicate Entry 
错误 而 导致 同步 中 断 。 因 此 ， 需 要 在 每 个 主 服务 器 上 安装 keepalived， 根 据 
VRRP 来 配置 Active/Standby， 让 执行 修改 类 的 SQL 语句 只 在 一 方 进行 处 
理 。 据 此 ， 不 管 应 用 程序 的 行为 如 何 ， 在 任何 情况 下 都 可 以 稳定 运行 了 。 


为 数据 库 的 表 添 加 列 ， 或 者 执行 表 的 优化 操作 时 ， 在 传统 的 主 从 结构 下 ， 
进行 这 些 维护 必须 停止 服务 ， 而 在 迁移 到 多 主 结构 的 数据 库 中 ， 则 可 以 在 
“影响 服务 的 正常 提供 的 情况 下 进行 ， 可 以 说 同 前 迈 出 了 一 大 步 。 

在 主机 凶 (Active) 和 主机 加 〈Stand-by) 的 多 主 结构 中 ， 具 体 程序 如 下 所 
人 小 : 


。 在 主机 B (Stand-by) 上 停止 keepalived 

。 分 别 在 主机 和 主机 B 上 运行 SLAVE STOP， 停 止 同步 
。 在 主机 B 上 执行 添加 列 等 维护 操作 

。 在 主机 B 上 运行 SLAVE START， 人 恢复 从 @ 到 B 的 同步 
。 等 待 主机 B 的 同步 赶 上 主机 人 SS 


。 启动 主机 BB 的 keepalived， 停 止 主机 人 的 keepalived， 将 主机 B 恢复 
为 Active 


。 在 主机 @ 上 执行 SLAVESTART， 恢 复 从 B 到 Q 的 同步 


。 等 待 主 机 的 同步 赶 上 主机 B 
。 启动 主机 BS 的 keepalived， 将 主机 办 恢复 为 Active 


这 是 一 个 复杂 的 过 程 ， 但 这 样 就 可 以 在 服务 不 停止 的 情况 下 进行 若干 次 维 
护 。 不 过 这 里 必须 你 证 所 实施 的 维护 的 内 容 与 并 行 运行 的 Active 的 更 新 内 
容 不 冲突 。 例 如 ， 在 添加 列 到 现 有 表 时 ， 如 果 被 添加 列 的 内 容 全 部 都 可 以 
为 默认 值 ， 就 没有 冲突 问题 ， 男 一 方面 ， 在 进行 删除 列 的 维护 时 ， 在 
Active 一 方 对 列 的 删除 做 出 反映 之 前 束 运 行 msert 语句 的 情况 下 ， 若 Insert 
语句 中 包括 该 列 的 项 目 ， 就 会 在 “等 待 主 机 四 的 同步 赶 上 主机 外 ”时 发 生 同 
步 错误 。 因 此 像 后 者 这 样 ， 在 恢复 同步 时 因 错 误导 致 同步 终止 的 情况 下 ， 
必须 中 断 服 务 进行 维护 。 


多 主 的 男 一 个 问题 是 ， 当 访问 量 增加 时 ， 仪 靠 两 台 Master 将 无 法 处 理 访 
问 ， 而 必须 增加 Slave。 各 Slave 都 从 属于 某 一 台 Master， 如 果 目 己 从 属 的 
Master 出 现 故障 ， 而 只 有 一 个 Master 运行 的 话 ， 束 会 导致 更 新 信息 无 法 传 
递 给 出 现 故障 的 Master 下 所 挂 载 的 Slave 数据 库 。 因 此 ， 当 出 现 故 障 时 只 
能 通过 别 的 方式 传递 更 新 信息 ， 或 者 停止 出 现 故障 那 边 的 Slave 数据 库 ， 这 
个 问题 目前 还 没有 找到 很 好 的 应 对 措施 。 


如 果 能 够 采用 前 者 的 方式 ， 从 尚未 出 现 故 障 的 Master 获得 更 新 信息 当然 非 
党 理想， 但 是 从 MySQL 的 同步 机 制 上 来 看 这 比较 困难 ， 因 此 如 果 要 应 对 的 
话 ， 也 只 能 采用 后 者 的 方式 ， 即 停止 出 现 故 障 那 边 的 Slave 数据 库 ， 但 这 样 
做 会 导致 处 理 能 力 减 半 ， 如 琳 服 务 絮 资源 不 够 充足 ， 在 融 峰 时 间 束 很 可 能 
发 生 更 为 严重 的 故障 。 虽 然 这 一 问题 现在 还 没有 到 不 得 不 解决 的 地 步 ， 但 
在 不 久 的 将 来 还 是 要 必须 面 对 的 。 


文件 服务 器 


和 数据 库 一 样 ， 文 件 服务 句 的 可 扩展 性 和 稳定 性 也 容易 遭 有 过 瓶 贷 。 在 
Hatena， 文 件 服务 器 均 已 使 用 DRBD 十 keepalived 进行 过 宛 余 处 理 ， 通 过 
使 用 lighttpd 的 反问 代理 优化 的 API， 还 有 通过 Squid 优化 的 缓存 ， 从 而 在 
见 余 和 高 速 之 间 取 得 了 平衡 。 男 外 在 DRBD 上 元 余 的 块 设备 使 用 OCFS2 
(Oracle Cluster File System for Linux2) 3 集群 文件 系统 进行 了 格式 化 ， 通 
过 使 用 集群 文件 系统 ， 就 可 以 使 DRBD 的 Active 一 方 提供 服务 ，Backup 一 
0 这 样 日 常 的 备份 工作 所 造成 的 IO 压力 聊 不 会 影响 到 服务 的 提 


3 URL http://0ss.oracle.com/projects/ocfs2/ 


6.1.3 ”提高 运营 效率 
投入 新 服务 器 到 基础 设施 生产 环境 时 ， 应 注意 以 下 几 点 : 

。 硬件 的 组 装 和 配置 

。 安装 系统 

。 安装 并 配置 应 用 程序 所 需 的 库 等 

。 配置 监控 等 其 他 基础 设施 所 需 的 运行 准备 

。 根据 服务 器 的 作用 部 署 应 用 和 配置 数据 库 

。 部 署 负载 均衡 器 ， 以 启动 生产 环境 
根据 应 用 的 行为 进行 配置 、 完 成 数据 库 的 数据 同步 操作 上 时， 通常 都 会 相当 
耗 时 。 但 这 之 外 的 部 分 ， 基 本 都 实现 了 流水 线 化 的 自动 作业 ， 例 如 从 硬件 
的 安装 到 实际 投入 使 用 ， 几 乎 不 需要 管理 员 参 与 。 
下 面 简 单 地 介绍 一 下 其 流程 。 
安装 Kickstart 
Hatena 的 服务 喜 基 本 上 都 是 从 基础 零件 组 痛 的 。 这 部 分 纯粹 是 靠 人 海战 
术 ， 确 实 需要 一 定 的 时 间 。 组 装 完 服务 器 并 设 定 BIOS 之 后 ， 首 先 用 
Kickstart 进行 操作 系统 的 安装 ， 除 了 通常 所 需 的 最 低 限 度 的 操作 系统 的 安 
装 之 外 ， 还 应 该 进行 LDAP (Lightweight Directory Access Protocol) 的 配 
置 ， 以 及 使 用 autofs 进行 用 户 登 孙 方 面 的 设 定 ， 此 外 还 有 Puppet 的 初始 配 
置 ， 另 外 还 可 以 根据 需要 配置 将 自己 的 卫 地 址 发 送 给 工程 师 进 行 沟通 所 使 
IRC 消息 频道 。 鉴 于 这 里 会 安装 大 量 的 软件 包 ， 所 以 需要 一 定 的 时 
IB| 。 
这 样 一 来 ， 在 BIOS 的 设置 完成 后 重 局 设备 ， 束 完全 可 以 进行 远程 操作 了 。 
软件 包 管理 和 Puppet 
通 种 在 进行 “安装 并 配置 应 用 程序 所 需 的 库 等 "以 及 “配置 监控 等 其 他 基础 设 
施 所 需 的 运行 准备 ”等 工作 时 ， 需 要 花费 相当 多 的 人 力 和 时 间 。 但 这 里 通过 
建立 或 引入 以 下 两 种 工具 : 


。 全 部 使 用 rmp 安装 包 或 使 用 yum 一 键 安装 


。 Puppet (自动 化 配置 管理 工具 ， 具 体 请 参考 5.3 节 ) 
就 几乎 实现 了 自动 化 ， 可 以 大 幅度 减少 配置 花费 的 时 间 。 


前 者 是 指 在 希望 使 用 MySQL 的 特定 版 本 或 Apache 需要 一 些 非 标准 库 时 ， 
使 用 rpm 包 或 通过 yum 工具 进行 安 效 。 比 较 据 烦 的 是 大 量 的 CPAN 模块 ， 
这 里 通过 分 析 CPAN 的 依赖 关系 可 以 目 制 脚本 打包 成 pm， 这 样 CPAN 模 
块 也 几乎 可 以 自动 转换 为 rpm 包 。 据 此 ，Hatena 应 用 所 依附 的 多 达 200 余 
个 CPAN 模块 也 可 以 轻松 地 进行 部 署 了 4。 


4 打包 为 rpm 后 ， 更 新 依赖 于 CPAN 模块 的 应 用 也 变 得 更 容易 了 。 


在 5.3 世 中 介绍 的 Puppet， 通 过 逐渐 积累 运营 诀 客 ， 使 服务 器 所 需 的 初始 配 
置 实现 了 自动 化 。Puppet 经 常 被 用 于 一 些 很 少 需要 调整 的 配置 中 ， 例 如 域 
名 服务 万 的 设置 和 sshd 的 设置 ， 以 及 后 端 服务 器 和 数据 库 服务 右 的 基础 设 
置 。 至 于 各 应 用 程序 需要 根据 负载 情况 详细 修改 配置 的 配置 文件 ， 则 仅 部 
车 初 始 化 文件 ， 其 余 的 设置 则 依赖 人 工 调整 而 不 使 用 Puppet 。 


从 Puppet 的 特征 上 来 看 ， 设 置 的 微调 也 需要 多 个 步骤 的 元 余 操 作 。 通 常 需 
要 采用 试 误 法 (Try and Error) 来 党 试 多 次 重 写 配置 ， 例 如 Apache 的 
httpd.conf 和 MySQL 的 my.cnf 等 配置 文件 ， 考 虑 到 配置 生效 的 速度 和 效 
率 ， 最 好 由 各 个 管理 员 提 前 编写 几 个 不 同情 况 下 的 配置 文件 ， 届 时 直接 更 
换 合 适 的 配置 文件 就 可 以 了 。 


在 服务 右 的 设置 完成 之 后 ， 束 能够 轻松 地 部 署 应 用 程序 并 确认 程序 的 运 
Ly 其 后 再 更 新 负载 均衡 器 (LVS) 的 设置 ， 新 服务 器 的 投入 工作 就 结束 


服务 器 的 管理 和 监控 


鉴于 笔者 平时 经 常会 对 服务 器 进行 添加 、 设 置 和 微调 等 操作 ， 因 此 需要 了 
解 某 服务 是 在 哪个 服务 器 上 运行 的 ， 还 需要 准确 了 解 各 个 服务 器 的 具体 规 
格 。 以 前 我 们 的 管理 团队 是 通过 Hatena 集团 的 关键 字 功 能 (类 似 Wiki 那样 
的 实现 ) 来 管理 列表 的 ， 但 由 于 更 新 过 程 过 于 复杂 ， 很 容易 出 现 更 新 丝 

人 例如 常常 在 想 使 用 某 服务 时 才 发 现 该 服务 其 实 是 在 其 他 服务 器 上 运行 


造成 这 一 问题 的 最 大 原因 是 ， 大 改变 一 个 服务 天 的 作用 ， 吏 会 牵连 到 下 述 
多 项 需要 更 正 的 项 目 ， 所 以 很 难 避 免 人 为 错误 。 


。 修改 服务 器 管理 关键 字 


。 更 改 Nagios 监控 的 设置 
。 在 视图 监控 工具 MRTG (Multi Router Traffic Grapher) 5 上 修改 配 
置 


。 更改 应 用 程序 部 署 的 目标 列表 
。 更 改 LVS 的 配置 


5 URL http://0ss.oetiker.ch/mrtg/ 


接 下 来 开始 自行 建立 服务 器 管理 工具 。 我 们 的 目标 是 : 只 需 修 改 服务 器 管 
理工 具 上 面 的 数据 ， 相 应 的 配置 就 会 上 自动 得 到 修改 。 在 目前 情况 下 ， 通 过 
利用 MRTG 的 视图 化 接口 ， 在 自行 建立 的 服务 器 管理 工具 上 加 入 视图 监控 
等 功能 ， 这 样 一 来 就 能 在 部 署 时 避免 更 新 目标 对 象 列 表 了 ， 即 无 需 手 动 修 
改 配置 文件 ， 通 过 视图 端 瓯 能 完成 监控 操作 。 今 后 视图 端 还 会 添加 LVS 和 
Nagios 的 控制 台 。 


服务 器 管理 工具 能 够 输出 诸如 服务 器 台数 以 及 各 种 规格 的 服务 絮 台 数 统计 
信息 ， 结 合 Hatena Graph 的 相关 功能 ， 还 能 够 掌握 基础 设施 规模 和 架构 的 
变革 。 最 近 发 现 Hatena 的 基础 设施 中 依然 在 使 用 Pentium MMX， 笔 者 不 由 
得 有 些 感慨 。 


该 服务 絮 管 理工 具 将 作为 OSS 开源 软件 进行 公布 。 
使 用 Capistrano 部 署 


Capistrano 6 是 很 有 历史 的 应 用 程序 部 署 工具 了 ， 它 几乎 能 一 键 完 成 部 署 操 
作 。Capistrano 是 使 用 Ruby 语言 开发 的 应 用 部 署 工具 ， 不 仅 可 以 应 用 于 
Ruby on Rails 的 Web 应 用 框架 ， 还 能 应 用 于 其 他 比如 PHP 开发 的 Web 应 
用 上 。 通 过 使 用 该 工具 ， 就 可 以 将 需要 执行 的 任何 命令 发 送 到 多 台 服 务 妖 
批量 执行 ， 还 可 以 在 shell 中 交互 式 地 执行 命令 ， 非 常 方 便 。 


6 URL http://www.capify.org/ 


在 Hatena， 并 没有 像 这 样 直接 使 用 Capistrano， 而 是 对 Capistrano 的 功能 进 
行 了 一 部 分 调整 。 例 如 通过 上 壕 服 务 器 管理 工具 的 API 获得 发 送 部 署 等 命 
令 的 目标 服务 器 列表 等 。 因 此 ， 即 使 基础 设施 的 维护 团队 增设 了 服务 大 ， 
Web 无 障碍 地 进行 应 用 程序 的 部 署 
和 更 新 等 。 


6.1.4 ”用 电 效 率 .提高 资源 的 利用 率 


运行 大 量 的 服务 器 并 不 断 增 强 其 性 能 ， 基 础 设施 的 运营 成 本 必然 会 增加 。 
这 样 就 产生 了 一 个 问题 一 是 继续 使 用 现 有 的 服务 器 呢 ? 还 是 引进 效率 较 
高 的 新 服务 器 呢 ? 


Hatena 不 仅 重 视 购买 服务 万 的 费用 等 初期 成 本 的 压缩 ， 同 时 也 重视 用 电 成 
本 的 压缩 。 因 此 ， 日 常会 基于 以 下 三 个 观点 进行 服务 器 的 调度 和 配备 。 


。 在 配备 和 调度 服务 器 时 ， 重 视 服 务 器 每 1A 所 发 挥 的 性 能 
。 尽 可 能 提高 每 台 服 务 器 的 性 能 ， 根 据 虚 拟 化 技术 分 割 利用 
。 不 安装 无 用 的 零件 

重视 服务 器 每 1A 所 发 挥 的 性 能 


在 选择 服务 右 时 ， 大 多 数 情况 下 人 们 都 会 比较 重视 硬件 本 身 的 价格 ， 而 往 
往 忽视 便 件 的 耗 电量 。 而 在 服务 套 制 造 商 提供 的 参数 列表 中 ， 往 往 耗 电量 
写 得 也 并 不 那么 明确 。 在 Hatena， 也 有 自己 组 六 的 硬件 ， 在 评定 耗 电量 
时 ， 不 仅 是 CPU 和 心 片 组 ， 内 存 、 人 硬盘 和 电源 装置 的 耗 电量 也 都 要 一 一 进 
行 测试 ， 并 根据 测试 结果 来 选择 。 


对 于 现 有 的 、 已 经 在 生产 环境 中 的 服务 妖 ， 也 会 通过 更 换 一 部 分 零件 来 提 
高 性 能 ， 降 低 耗 电量 。 最 近 的 案例 中 ， 最 具 代 表 性 的 是 从 Core2 Duo 的 
CPU 更 换 为 “Core2 Quad”， 据 此 吏 实 现 了 性 能 翻 倍 且 耗 电量 不 变 的 效果 。 
这 时 据 Core2 Duo 的 引入 大 约 只 经 过 了 一 年 的 时 间 ， 就 迅速 转变 为 了 Core2 
Quad， 目 前 Core2 Duo 只 保留 了 人 全盛 时 期 的 1/3 左右 。 通 过 这 个 调换 工作 ， 
驶 能 够 在 不 增加 服务 恬 的 情况 下 增强 服务 恬 的 承载 量 ， 同 时 也 能 控制 数据 
中 心 的 机 架 成 本 和 电源 成 本 ， 从 而 有 助 于 基础 设施 成 本 的 压缩 。 


充分 利用 每 台 服 务 器 的 性 能 


如 上 所 述 ， 从 Core2 Duo 转换 到 Core2 Quad 后 ， 将 原本 Core2 Duo 服务 器 
的 软件 放 到 Core2 Quad 服务 器 上 并 进行 元 余 ， 接 下 来 承 产 生 了 另 一 个 问 
题 ， 那 就 是 不 能 充分 利用 现 有 服务 需 的 性 能 。 鉴 于 Core2 Quad 的 性 能 非常 
高 ， 仅 用 1L 台 就 能 够 处 理 某 种 程度 的 并 发 量 ， 如 果 是 用 于 小 型 


服务 的 话 ， 束 会 汇 费 其 性 能 优势 ， 更 何况 为 了 进行 见 余 还 要 准备 2 台 ， 除 
非 是 相当 规模 的 服务 ， 否 则 Core2 Quad 服务 器 的 性 能 肯定 无 法 被 充分 利 
用 。 鉴 于 每 台 服 务 需 的 性 能 还 会 逐渐 提高 ， 这 种 趋势 会 变 得 更 加 明显 。 


在 这 种 情况 下 ， 虽 然 使 用 廉价 的 CPU 也 是 一 个 解决 方案 ， 但 是 实体 CPU 
的 价格 及 耗 电量 等 都 不 具有 优势 ， 因 此 就 会 导致 为 了 文 撑 小 型 务 而 花费 较 
大 成 本 的 情况 。 在 Hatena， 通 过 引进 虚拟 化 技术 Xen ， 实 现 了 更 有 效 的 服 
务 器 资源 的 利用 。 


使 用 Xen7 ， 可 以 实现 在 1 台 物理 服务 器 ( 母 机 ) 上 提供 多 台 虚 拟 服务 器 
( 子 机 ) ， 但 子 机 分 配 的 资源 要 在 母 机 内 存 、 硬盘 和 负载 容许 的 条 件 下 进 
行 。 


| 7 URL http://www.xen.org/ 


目前 Hatena 的 标准 配置 是 ， 将 首先 启动 的 母 机 的 操作 系统 (Xen 的 术语 为 
Dom0 ) 用 于 管理 ， 仅 为 其 分 配 最 低 限 度 的 硬 强 和 内 存 ， 另 外 生成 若干 个 子 
机 的 操作 系统 (Xen 的 术语 为 DomU) 。 例 如 ， 用 两 台 服 务 器 建立 AP 服务 
锋 的 DomU 和 多 主 数据 库 的 DomU， 这 里 准备 两 台 的 原因 是 为 了 进行 见 
余 ， 实 现 当 一 台 服 务 絮 出 现 硬 件 故 障 时 ， 也 可 以 分 别 保 留 一 个 AP 服务 侣 和 
数据 库 的 DomU。 之 所 以 分 离 AP 服务 器 和 数据 库 ， 是 为 了 方便 在 霖 来 服务 
成 长 时 将 各 个 DomU 部 团 到 不 同 的 服务 器 。 


此 外 ， 数 据 库 服 务 器 的 内 存 容量 和 1/O 性 能 容易 成 为 瓶 席 ，AP 服务 器 的 
CPU 性 能 容易 成 为 瓶颈 。 因 此 ， 通 过 将 数据 库 服务 如 剩 余 的 CPU 资源 配 入 
到 AP 服务 絮 的 DomU 上 ， 这 样 陇 能够 充分 利用 CPU 及 LO 资源 了 。 


Hatena 通过 这 一 方式 逐步 推进 了 基础 设施 资源 的 有 效 利 用 (图 6.1.3) ， 目 
前 物理 服务 器 的 台数 是 350 台 左 右 ， 虚 拟 的 子 机 服务 器 数量 要 比 物理 服务 
器 多 20% 左右 。 
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图 6.1.3 基础 设施 资源 的 有 效 利用 


鉴于 每 台 服务 器 的 耗 电量 会 随 着 资源 利用 率 的 提高 而 增加 ， 因 此 单 台 电源 
实际 连接 的 服务 器 台数 要 比 想象 中 少 。 


不 安装 无 用 的 零件 
提高 电源 效率 的 男 一 个 方法 就 是 不 安装 无 用 的 零件 。 比 如 ， 不 安装 万 价 的 
内 存 、 控 制 硬盘 容量 、 不 组 装 无 用 的 RAID 等 。 现 在 Hatena 正在 引入 原本 
驶 没有 硬盘 的 无 盘 服 务 右 。 
无 盘 服 务 咽 ， 顾 名 思 义 ， 就 是 没有 人 硬盘 的 服务 絮 ， 它 的 优点 是 能 够 减少 耗 
电量 、 减 少 硬件 故 障 发 生 率 、 容 易 通 过 网 络 引 导 修 改 所 部 署 的 服务 的 配 
置 。 缺 点 在 于 不 能 目 行 启动 、 日 志 等 不 能 在 本 地 保存 、 相 对 于 有 盘 服务器 
运行 不 那么 稳定 等 。 
Hatena 的 无 盘 服 务 器 有 以 下 几 个 特点 : 

。 通过 网 络 引 导 和 DHCP 进行 服务 器 作用 的 配置 

。 基 于 虚拟 化 技术 的 高 维护 性 

。 通过 联合 文件 系统 8 和 文件 服务 器 进行 松 耦 合 


8 旭 Aufs。Aufs 是 Another Unionfs 的 简称 ， 是 一 个 类 似 于 Unionfs 的 可 堆 释 联合 文件 系统 。 
URL http://aufs.sourceforge.net/ 


实际 上 ， 文 件 服务 器 启动 后 ， 会 按照 如 下 流程 依次 启动 : 
。 通 过 DHCP， 根据 MAC 地 址 获取 IP 地 址 和 磁盘 映像 的 路 径 


。 在 初始 root 上 获取 磁盘 映像 ， 并 将 已 经 获取 磁盘 映像 的 root 作为 实体 
root 进行 挂 载 


。 启动 实体 root 


通常 只 在 局 动 时 才 需 要 和 外 部 文件 服务 絮 及 DHCP 服务 器 等 进行 连 返 ， 在 
Ee 即使 切断 和 这 些 服务 右 的 连接 也 可 以 继续 运行 。 在 局 动 后 ， 

需要 部 署 应 用 程序 等 ， 文 件 将 会 被 更 新 ， 这 里 所 更 产 的 内 容 会 自动 写 回 
到 磁盘 映像 中 ， 用 户 在 使 用 时 甚至 不 会 察觉 到 这 是 无 盘 服务 器 。 但 是 被 
分 配 了 相同 任务 的 无 盘 服 务 嚣 本 月 都 是 通过 同一 镜像 启动 的 ， 这 一 点 需要 


留意 。 


使 用 无 盘 服务 器 ， 例 如 添加 新 的 后 端 服务 器 进行 负载 均衡 时 ， 只 需 改 写 
DHCP 的 配置 文件 ， 并 启动 相应 的 服务 器 ， 服 务 句 束 能 够 目 动 下 载 合 适 的 
位 组 映像 ， 并 将 其 投入 使 用 。 


6.1.5 为 了 自律 的 基础 设施 而 努力 


在 这 一 两 年 中 ，Hatena 的 基础 设施 在 负载 均衡 、 风 余 、 拓 高 资源 利用 率 方 
面积 篆 了 不 少 经 验 ， 现 在 已 经 拥有 一 套色 能 彩 夭 用 相当 规 梧 的 访问 量 的 服务 
如 并 实现 高 效 运作 了 。 不 过 还 有 一 些 地 方 需要 依靠 专业 人 员 的 设置 ， 或 者 
需要 反复 手动 进行 微调 。 平 时 随 着 并 发 量 的 增加 ， 服 务 数 量 及 类 型 也 在 持 
续 增加 ， 在 基础 设施 技术 方面 ， 例 如 在 虚拟 化 技术 上 ， 需 要 调整 的 地 方 还 
有 很 多 。 随 着 运作 效率 的 提升 ， 服 务 右 资源 余 量 会 越 来 越 少 。 因 此 也 很 容 
BE 00 0 00 
I。 


0 已 有 设备 的 调试 方面 所 积蓄 的 经 验 ， 使 各 服务 恬 
人 增设 、 撤 除 逐 步 实现 目 动 化 。 人 例如， 监控 Apache 的 进程 ， 如 果 人 负 
载 增 大 就 增加 MaxProcess， 如 果 进 程 的 内 存 消 耗 增加 就 缩小 MaxProcess 和 
RequestsPerChild， 这 些 想必 很 快 束 能 实现 。 此 外 ， 如 采 能 将 无 盘 服 务 絮 的 
运用 很 好 地 锥 入 正轨 ， 似乎 也 能 很 容易 实现 动态 增加 或 减少 某 一 作用 的 服 
为 大 


像 这 样 不 断 地 突破 手动 的 自主 控制 ， 基 础 设施 就 会 变 得 像 生物 一 样 。 各 服 
务 右 独立 运行 ， 出 现 故 障 束 上 自行 修复 ， 知 负载 增加 束 强 化 该 部 分 ， 知 长 期 
不 使 用 就 让 其 弱化 。 当 然 硬件 层面 的 工作 仍 需 人 工 进行 ， 但 针对 可 以 用 软 
件 完成 的 过 异 部 分 ， 则 构 多 克 像 生物 那 标 目 律 珊 强 的 : ‘生态 系统 ”。 笔 者 认 
为 ， 这 将 是 基础 设施 的 终极 形态 


6.2 DSAS 的 内 容 


6.2.1 什么 是 DSAS 


DSAS (Dynamic Server Assign System) 是 KLab 公司 使 用 的 服务 右 : 网 络 
ee 。 目前 在 东 系 和 福 由 的 数据 中 心 有 300 多 台 服 务 需 运行 着 
照片 6.2.1) 。 


9 URL http://www.klab.com/jp/ 


照片 6.2.1 DSAS 的 外 观 

本 节 将 对 DSAS 的 特征 和 内 部 结构 进行 介绍 。 

6.2.2 DSAS 的 特征 

自 完 我 们 来 看 一 下 DSAS 的 几 大 特征 ， 然 后 再 逐条 进行 讲解 。 
。 一 个 系统 容纳 多 个 网 站 
。 使 用 开源 软件 搭建 
。 ， 网 络 服务 都 不 会 停止 


。 服务 器 增设 非常 简单 
。 故障 修复 非常 简单 
一 个 系统 容纳 多 个 网 站 


每 当 设立 新 的 网 站 时 都 要 重新 搭建 服务 絮 或 网 络 ， 此 时 整体 拓扑 结构 束 如 
图 6.2.1 所 示 。 在 这 个 拓扑 中 ， 当 网 站 A 的 流量 剧 增 时 ， 即 便 此 时 的 服务 右 
已 经 无 法 进行 这 些 处 理 ， 也 不 能 挪用 网 站 B 的 服务 右 来 帮助 其 进行 处 理 ， 
因此 就 需要 根据 访问 高 峰 时 所 需 的 服务 器 人 台数， 为 网 站 A 增设 服务 器 。 者 
平时 的 访问 量 都 比较 多 的 话 那 还 能 接受 ， 但 如 果 只 是 为 了 暂时 性 的 访问 高 
峰 (比如 有 优惠 活动 时 而 增设 服务 器 的 话 ， 成 本 就 太 大 了 。 


若 网 站 A 的 访问 量 增 加 ， 


则 需要 增设 服务 器 


2 一 加 一 加 国 同 国 风 一 呈 
! VVeb Web | | 数据 库 | | 数据 库 | | 备用 ! 
: 网 站 C 专用 桥 耻 
四 


wm aaa a a -aa 


图 6.2.1 分 别 为 各 网 站 搭建 系统 


DSAS 的 拓扑 结构 如 图 6.2.2 所 示 ， 多 个 网 站 共用 一 个 系统 。 而 且 网 站 使 用 
的 服务 器 也 可 以 动态 地 进行 改变 。 如 此 一 来 ， 即 使 网 站 A 的 访问 量 剧 


增 ， 也 可 以 暂时 利用 网 站 B 的 服务 器 来 应 对 。 让 一 个 系统 容纳 多 个 网 站 ， 
可 以 避免 服务 器 资源 的 浪费 。 


| 1 “DsAS” 的 名 字 就 是 由 “可 以 智能 进行 服务 器 的 调配 ”这 一 特点 得 来 的 。 
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图 6.2.2 一 个 系统 容纳 多 个 网 站 
使 用 开源 软件 搭建 


DSAS 的 服务 器 架构 如 图 6.2.3 所 示 。 虽 然 根 据 作 用 分 为 了 “前 端 服务 

器 ”和 “后 端 服务 器 >”， 但 全 部 的 服务 器 都 是 基于 Linux (Debian GNU/Linux 
4.0) 这 一 开源 系统 搭建 的 。 表 6.2.1 是 使 用 的 软件 清单 。 关 于 前 端 服务 器 和 
后 端 服务 器 ， 请 参考 表 6.2.2 和 表 6.2.3。 
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图 6.2.3 DSAS 的 服务 器 架构 
表 6.2.1 主要 使 用 的 软件 


名 称 


Apache 2.0 版 、2.2 版 


Tomcat 5.5 版 、6.0 版 


PHP 4.4 版 、5.2 版 


MySQL 4.0 版 、5.0 版 


qmail 1.03 


名 称 版 本 
djbdns 0.5 
70 
0.4 
了 
3c 


i 


repcached 2.0 


表 6.2.2 ”前 端 服务 器 


通过 使 用 Linux 搭 建 的 负载 均衡 器 。 可 以 将 终端 用 户 的 请 求 分 流 到 不 同 的 Web 服务 器 上 进 
行 处 理 。 这 里 可 以 利用 已 经 } 健康 检查 功能 的 keepalived， 编 写 独 自 的 维护 脚本 


为 了 能 够 动态 修改 服务 器 的 配置 ， 必 须 保 证 “< 所 有 服务 器 的 内 容 相同 ”。 
站 时 最 好 只 对 主 服务 器 部 署 ， 其 后 再 运行 专用 的 命令 扩展 到 所 有 服务 器 


提供 Web 服 务 的 服务 器 。 在 所 有 的 服务 器 上 部 署 所 有 的 网 站 ， 就 可 以 让 任何 
为 任何 网 站 提供 服务 。 Web 服 务 器 使 用 Apache，AP 服 务 器 使 用 Tomcat 及 PHP 等 


表 6.2.3 ”后 端 服务 器 


数据 库 服务 器 使 用 MySQL。 这 是 由 一 台 Master 和 两 台 Slave 构 成 的 三 人 台 主 机 的 最 小 架构 ， 
具体 还 可 根据 需要 增加 Slave 的 台数 。 当 Master 由 于 故障 而 停止 时 ， 将 把 Slave 转 换 为 
Master 进 行 修复 


TS (Temporary Share) 
呆 存 临时 数据 (缓存 或 会 话 数据 等 ) 的 数据 库 。 使 用 了 软件 repcached 〈 见 下 文 ) ， 并 在 
该 软件 上 增加 了 同步 到 memcached 的 功能 
PS (Permanent Share) “BK (Backup) 
网 站 内 容 数据 等 ， 的 存储 服务 器 。 利 用 第 3 章 介 绍 的 DRBD 技 术 实 现 了 


可 以 应 用 于 NFS， 而 且 在 HTTP 上 也 可 以 实现 读 取 文件 的 操作 。BK 是 备 
期 备份 PS 服务 器 的 文件 


内 部 负载 均衡 器 。 与 LVS 一 样 使 用 keepalived 搭 建 ， 被 用 于 DNS 或 MySQL 的 负载 分 流 等 
LOG 


收集 Apache 日 志 等 的 服务 器 。 收 集 各 Web 服 务 器 的 日 志 并 日 志 解 析 等 。 此 
外 还 使 用 了 5.2 节 中 介绍 的 Ganglia， 来 维持 各 服务 器 的 正常 运 4 


无 论 切 断 任何 地 方 ， 网 络 服务 都 不 会 停止 


图 6.2.4 是 网 络 的 物理 接线 图 。 因 为 完全 实现 了 见 余 ， 所 以 切断 任何 地 方 网 
络 都 不 会 中 断 。 这 里 对 二 层 交 换 机 使 用 了 RSTP 进行 见 余 ， 服 务 器 方面 则 
了 张 动 绑 定 。Internet 线路 有 两 条 ， 即 使 一 条 链 路 失效 ， 也 没有 什么 影 
He 


图 6.2.4 物理 接线 图 
服务 器 增设 非常 方便 


主 服 务 右 以 外 的 服务 絮 ， 全 部 实现 了 网 络 引 导 。 网 络 引 本 的 你 呈 征 家 设 服 
务 器 时 不 需要 党 珊 的 部 署 工 作 。 即 使 是 刚 买 的 磁 副 革新 的 服务 器 ， 只 要 在 
BIOS 中 开启 网 络 引导 ， 就 能 立即 启动 操作 系统 。 根 据 启动 时 所 输入 的 参 
数 ， 可 以 让 它 成 为 Web 服务 右 、 人 负载 均衡 器 或 数据 库 服务 器 。 


故障 修复 非常 简单 


使 用 RSTP 进行 二 层 交 换 机 的 见 余 的 情况 并 不 少见 ， 不 过 过 ， 图 6.2.4 的 特点 
是 Internet 线路 与 二 层 交 换 机 是 直 接连 接 的 。 负 载 均衡 右 是 Linux 机 器， 行 
为 与 其 他 服务 器 类 似 。 因 此 ， 大 Internet 线路 直 接连 接 负 载 均衡 器 必须 在 
(负载 均衡 器 ) 上 增加 网 卡 。 当 负载 均衡 器 由 于 故障 等 停止 
时 ， 还 需要 为 备份 机 器 增加 网 卡 并 重新 连接 网 线 。 


为 了 解决 这 个 麻烦 ， 这 里 让 二 层 交 换 机 来 容纳 Internet 线路 ， 将 所 有 服务 右 
的 物理 线路 汇集 在 一 起 (详情 见 3.3 节 ) 。 当 负载 均衡 器 出 现 故 障 时 ， 选 定 
一 台 服 务 絮 作为 蔡 代 机 并 重新 局 动 。 此 时 ， 通 过 网 络 引 导 的 局 动 参数 指示 
其 为 负载 均衡 器 。 这 项 工作 全 部 可 以 远程 进行 ， 即 使 不 到 数据 中 心 也 能 实 

现 故 障 的 修复 工作 ， 实 现 了 彻底 的 元 余 结构 。 


6.2.3 ”系统 染 构 的 详情 


DSAS 是 由 各 种 开源 软件 构成 的 。 这 里 将 选取 DSAS 的 几 个 特点 ， 对 其 中 精 
心 设计 的 地 方 以 及 容易 出 问题 的 地 方 加 以 介 绍 。 


使 用 驱动 绑 定 的 原因 


当 以 元 余 为 目的 使 用 多 块 网 卡 时 ， 可 能 需要 考虑 为 各 个 网 卡 分 配 卫 地 址 ， 
但 是 结果 未 必 会 像 想 象 中 的 那样 。 例 如 ， 假 设 为 某 服 务 器 的 eth0 分 配 了 
192.168.0.1/24， 为 eth1 分 配 了 192.168.0.2/24。 这 时 如 果 从 其 他 机 器 给 这 些 
地 址 发 送 ping ， 这 些 地 址 都 能 正常 返回 应 答 。 但 是 ， 如 果 拔 掉 eth0 的 
LAN 网 线 ， 即 使 ethl 的 LAN 网 线 连接 正常 ， 也 无 法 与 192.168.0.2 通信 
了 。 确 认 一 下 ARP 表 就 会 得 知 这 些 地 址 都 被 分 配 了 eth0 的 MAC 地 址 。 也 
0 即使 实际 使 用 了 两 块 网 卡 ， 实 际 上 也 只 有 一 块 网 卡 可 以 进行 通 


分 配 了 多 个 IP 地 址 的 服务 器 路 由 选择 表 (Routing Table) 如 图 6.2.5 所 示 。 
像 这 样 在 对 同一 网 络 使 用 多 个 入 口 的 情况 下 ， 基 于 路 由 选择 表 上 的 规则 ， 


发 往 192.168.0.0/24 的 数据 包 必 须 从 eth0 发 出 。 这 种 行为 是 不 考虑 网 卡 链 
路 状态 的 ， 即 使 未 连接 LAN 网 线 ， 也 会 尝试 从 eth0 发 送 数据 包 。 


# route -n 
Kernel IP routing table 


Destination Gateway Genmask Flags Metric Ref Use Iface 
192.168.0.0 0.0.0.0 255.255.255.0 U 0 9 9 ethg < 肯定 
使 用 

192.168.0.0 0.0.0.0 255.255.255.0 U 0 0 0 eth1 .不 会 
使 用 


图 6.2.5 使 用 多 块 网 卡 时 的 路 由 选择 表 
如 果 天 闭 发 往 eth0 的 路 由 选择 表 ， 虽 然 可 以 使 用 ethl 与 其 他 服务 器 通信 ， 
但 此 时 必须 清空 ARP 缓存 列表 ， 或 者 从 ethl 发 送 Gratuitous ARP 通知 
MAC 地 址 的 变 更 。 因此 在 网 卡 的 元 余 处 理 中 ， 必 须 进 行 以 下 处 理 : 
。 确认 网 卡 的 链 路 状态 
。 如 果 链 路 失效 ， 则 切换 网 卡 
。 发 送 Gratuitous ARP 
驱动 绑 定 实现 了 这 些 功能 。 如 果 在 虚拟 接口 上 (bond0 等 ) 注册 的 物理 接口 
(eth0、ethl 等 ) 发 生 链 路 故障 ， 就 会 自动 切换 到 链 路 正常 的 网 卡 并 发 送 
GratuitousARP。 这 个 功能 对 接 入 到 二 层 交 换 机 的 见 余 网 络 来 说 非常 方便 。 
DRBP 实现 故障 转移 时 的 注意 事项 
企 储 服用 请 代用 DRBD 进行 了 了 元 余 ， 但 是 在 发 生 故 障 进行 故障 转移 时 有 几 
点 需要 注意 。DRBD 中 有 “on-io-error" 这 个 配置 项 目 。 在 硬盘 和 RAID 控制 
器 出 现 故 障 导致 物理 设备 的 访问 出 错时 ， 该 项 目 会 指定 接 下 来 进行 什么 样 
的 处 理 ， 具 体 可 以 设 定 以 下 数值 。 
。pass_on : 通知 上 层 (文件 系统 ) 磁盘 错误 并 继续 运行 
。 panic : 内 核 朋 浇 (Kernel Panic) 
。 detach : 分 离 物 理 设备 并 继续 运行 


默认 设 定 为 detach。 笔 者 也 基于 下 列 原因 选择 了 detach 。 


。 一旦 发 生 磁盘 错误 就 造成 内 核 朋 溃 会 让 人 感觉 过 于 极端 
。 发 生 磁 盘 错误 时 ， 故 障 转移 是 最 为 理想 的 行为 


设置 为 pass_on 的 情况 下 ， 除 了 文件 访问 失败 的 进程 以 外 ， 其 他 异常 
都 无 法 检测 出 来 


设置 为 detach 的 情况 下 ， 因 为 能 够 立即 监控 出 异常 ， 所 以 能 够 顺利 进 
行 故障 转移 


设置 为 detach 的 情况 下 ， 操 作 系 统 能 够 照常 运作 ， 调 查 故 障 明 细 时 会 
较为 轻松 


因为 默认 为 detach， 所 以 不 修改 直接 使 用 肯定 也 没有 问题 

当主 服务 器 Primary 遭遇 磁盘 错误 时 ， 最 好 能 进行 如 下 处 理 : 

@ 主 服务 器 Primary 隔离 磁盘 (操作 系统 继续 运行 ) 

@ 实施 故障 转移 的 操作 

日 将 备用 服务 器 Secondary 升格 为 主 服务 器 Primary 

但 实际 上 往往 不 是 这 样 。 一 旦 物理 磁盘 遭遇 故障 ， 主 服务 器 Primary 会 隔离 
磁盘 继续 运行 ， 但 备用 服务 如 Secondary 则 会 发 生 内 核 前 种 而 终止 运作 。 此 
时 ， 各 个 服务 器 的 内 核 日 志 中 会 输出 如 图 6.2.6 所 示 的 内 容 。 


e 主 服务 器 Primary 的 日 志 

kernel: drbd1: Local IO failed. Detaching.. 

kernel: drbd1: Sending NegDReply. I guess it gets messy. 
kernel: drbd1: Notified peer that my disk is broken. 


e 备 用 服务 器 Secondary 的 日 志 

kernel: drbd1: Got NegRSDReply. WE ARE LOST. We lost our up-to-date 
disk ， 

kernel: Kernel panic - not Syncing: drbd1: Got NegRSDReply. WE ARE 
LOST. We lost our up-to-date disk. 


图 6.2.6 ”磁盘 故障 时 的 内 核 日 志 


如 采 主 服务 器 Primary 对 设备 进行 了 隔离 操作 ， 台 会 问 备用 服务 天 
Secondary 发 送 NegDReply 信息 。 备 用 服务 器 Secondary 在 收 到 NegDReply 
信息 后 ， 束 会 发 生 内 核 朋 演 并 终止 运作 。 这 里 的 源 代 码 如 代码 清单 6.2.1 所 


示 划 o 


工 这 是 drbd-0.7.25 软件 的 源码 。 


代码 清单 6.2.1 drbd/drbd_receiver.c 


STATIC int got_NegRSDReply(drbd_dev *mdev, Drbd_Header* h) 


sector_t sector; 
Drbd_BlockAck_Packet *p = (Drbd_BlockAck_Packet*)h; 


sector = be64_to_ cpu(p->sector); 
D_ASSERT(p->block_id == ID_SYNCER); 


drbd_rs_complete_io(mdev, sector); 


drbd_panic("Got NegRSDReply. WE ARE LOST. We lost our up-to-date 
disk.\n"); 


// THINK do we have other options, but panic? 
// what about bio_endio, in case we don't panic ?? 


return TRUE ， 
} 


至 少 这 是 按照 开发 者 的 意图 运行 的 ， 所 以 并 不 能 说 有 什么 问题 。 奴 怕 开 发 
者 是 出 于 “即使 停止 也 要 保护 数据 ”的 意图 进行 实施 的 ， 但 是 如 果 让 遭遇 故 

障 的 服务 右 Primary 继续 运行 ， 而 让 备用 服务 器 Secondary 终止 运行 的 话 ， 

就 不 能 进行 故障 转移 的 操作 。 因 此 ， 这 里 将 on-io-error 指定 为 panic， 让 出 
现 故障 的 服务 怖 终止 运行 《磁盘 遭遇 错误 时 中 断 连 接 ) 。 


配置 SSL 加 速 器 
在 使 用 HTTPS 的 网 站 中 ， 如 果 在 Web 服务 器 上 处 理 SSL 请 求 ， 则 会 有 性 


能 降低 的 风险 。 虽 然 也 可 以 如 图 6.2.7 那样 使 用 硬件 加 速 器 来 减轻 服务 器 的 
负载 ， 但 是 在 DSAS 中 ， 使 用 的 是 stone 荆 这 款 SSL 的 软件 加 速 器 。 


12 URL http://www.gcd.org/sengoku/stone/Welcome.en.html 
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图 6.2.7 硬件 加 速 器 


硬件 加 速 器 多 为 比较 昂 贯 的 产品 ， 但 是 为 了 能 够 快速 地 进行 大 量 SSL 的 处 
理 ， 一 般 使 用 经 过 元 余 的 两 台 设 备 进行 处 理工 作 。 还 有 一 些 其 他 类 型 的 产 
品 ， 如 带 有 加 速 器 功能 的 网 卡 或 PCI 卡 等 ， 直 接 插 在 Web 服务 器 上 即 可 减 
轻 CPU 负载 。 但 在 使 用 stone 这 款 软 件 加 速 右 时 ， 鉴 于 单 台 服务 右 处 理 能 
力 较 低 ， 所 以 会 像 图 6.2.8 那样 ， 将 请 求 分 流 到 多 台 服 务 器 上 进行 处 理 。 
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图 6.2.8 ”软件 加 速 器 


stone 在 处 理 HTTPS 连接 时 ， 将 复合 的 HITP 请 求 经 由 负载 均衡 器 传递 给 
了 Web 服务 器 。 因 此 在 该 结构 中 进行 转 接 时 ， 源 IP 地 址 会 成 为 加 速 器 的 IP 
地 址 ， 所 以 某 些 IP 地 址 的 情况 下 就 可 能 会 遇 到 访问 受到 限制 的 问题 。 
此 ， 需 要 将 stone 的 配置 改 为 像 代 码 清单 6.2.2 那样 ， 并 将 客户 端 卫 地 址 藤 
入 到 HTTP 消息 头 的 “X-Orig-Client:” 中 。Web 服务 器 通过 查看 这 个 消息 头 
就 能 知道 实际 上 是 从 何 处 发 出 请 求 的 了 。 


代码 6.2.2 stone 的 配置 


-Z default 
-Z Sid_ctx='ssl.example.com:443' 


-Zz CApath=/usr/local/etc/ssl/certs/ 

-Zz Cert=/usr/local/etc/ssl/cert.pem 

-Zz key=/usr/local/etc/ssl/priv.pem 
11S:80/proxy 443/ssl 'X-Orig-Client: \a' 


在 Web 应 用 程序 中 ， 有 时 还 需要 辨别 客户 端 是 通过 HTTP 连接 的 还 是 通过 
HTTPS 连接 的 。 如 果 是 通过 HTTPS 连接 的 ， 则 pe 的 mod_ssl 中 会 将 


让 ee 。PHP、Tomcat 等 AP 服务 器 将 根据 这 个 环境 
变量 进行 判断 ， 但 是 如 果 请 求 经 由 stone 的 话 ， 全 部 连接 都 会 变 成 HTTP 连 
接 ， 所 以 这 里 在 配置 文件 httpd.conf 中 添加 如 代码 清单 6.2.3 所 示 的 设 定 。 


代码 清单 6.2.3 ”Apache 的 配置 


<IfModule mod_setenvif.c> 
SetEnvif Remote_Addr "A192\.168\.1\." HTTPS=on 
SetEnvif X-Orig-Client "^$" !HTTPS 

</IfModule> 


Remote_Addr 会 与 运行 有 stone 的 服务 器 的 地 址 进行 匹配 ， 同 时 设 定 


HTTPS=on 。 接 下 来 ， 查 看 X-Orig-Client, 若 此 处 为 空 就 表示 不 经 由 
stone， 然 后 清除 环境 变量 。 这 样 一 来 ， 就 只 限 在 经 由 stone 连接 的 情况 下 ， 
才 会 进行 HTTPS=on 的 设 定 。 


扩展 健康 检查 功能 


由 于 在 DSAS 的 负载 均衡 器 中 使 用 了 keepalived 工具 ， 因 此 可 以 通过 添加 
keepalived 的 补丁 〈keepalived-extcheck) 对 健康 检查 功能 进行 扩展 。 


13 关于 keepalived-extcheck， 请 参考 如 下 链接 (日 文 ) 。 
URL http://d.hatena.ne.jp/hirose31/20090929/1254154720 


过 应 用 此 keepalived-extcheck， 就 可 以 进行 如 下 健康 检查 。 
。FTP_CHECK : 检查 FTP 服务 器 是 否 能 应 答 NOOP 命令 
。DNS_CHECK : 检查 DNS 服务 器 是 否 能 返回 响应 
。 SSL_HELLO : 检查 服务 器 是 否 能 应 答 SSL 握手 


keepalived 中 还 添加 了 MISC_CHECK 功能 ， 据 此 来 进行 一 些 原本 不 支持 的 
健康 检查 。 具 体 来 说 就 是 调用 外 部 命令 ， 由 结束 代码 取得 健康 检查 的 结 
果 ， 但 这 里 又 会 出 现 以 下 问题 : 


。 ee 因此 消耗 的 性 能 成 本 会 比较 


。 如 果 命 令 没 能 自己 终止 ， 进 程 会 不 断 增加 并 累积 得 越 来 越 多 


关于 DNS 和 FTP 的 健康 检查 ， 可 以 在 进行 MISC_CHECK 后 做 出 如 代码 清 
单 6.2.4 那样 的 配置 。 但 是 如 果 健 康 检查 的 周期 比较 短 ， 比 如 检查 周期 是 几 
秒 钟 的 时 候 ， 调 用 外 部 命令 就 相对 比较 困难 。 因 此 我 们 可 以 像 代码 清单 
6.2.5 那样 ， 修 改 keepalived 本 号 。 这 样 相 较 于 MISC_CHECK， 可 以 大 幅 减 
少 健康 检查 的 性 能 成 本 。 


代码 清单 6.2.4 通过 MISC_CHECK 对 DNS 和 FTP 进行 健康 检查 


real_server 192.168.1.1 53 { 
MISC_CHECK { 
misc_path "/usr/bin/dig +time=001 +tries=2 @192.168.1.1 
localhost.localdomain" 
misc_timeout 5 


} 
real_server 192.168.1.1 21 { 
MISC_CHECK { 
misc_path "echo -en 'NOOP\r\nQUIT\r\n' | nc -w 5 -n 192.168.1.1 21 
| egrep '200 NOOP command successful'" 
misc_timeout 5 


} 


代码 清单 6.2.5 ”通过 扩展 的 功能 对 DNS 和 FTP 进行 健康 检查 


real_server 192.168.1.1 53 { 


DNS_CHECK { 

port 53 

timeout 5 

retry 3 

type A 

name localhost.localdomain 
} 


} 
real_server 192.168.1.1 21 { 


FTP_CHECK { 
host { 
connect_ip 192.168.1.1 
connect_port 21 


connect_timeout 5 
retry 3 
delay_before_retry 5 


通过 keepalived 中 的 SSL_GET 可 以 取得 HTTPS 网 站 的 状态 代码 。 但 需要 


留意 的 是 每 次 健康 检查 时 都 要 进行 加 密 通 信 ， 这 样 就 产生 了 一 个 问题 ， 那 
就 是 在 使 用 HTTPS 的 时 候 ， 不 能 同时 使 用 需要 进行 客户 端 认 证 的 页 面 以 及 
非 HTTPS 的 协议 (SMTPS 等 ) 


用 补丁 扩展 的 SSL_HELLO 会 尝试 进行 SSL 握手 来 检查 服务 器 是 否 发送 证 
书 。 因 为 此 处 并 不 依赖 于 应 用 软件 协议 所 以 也 能 适用 于 需要 客户 端 认 证 
的 网 站 ， 以 及 SSL 加 速 右 的 健康 检查 。 另 外 ， 因 为 这 里 不 进行 加 密 通信 ， 
所 以 还 具有 不 加 重 服务 器 负载 的 好 处 。 DSAS 使 用 了 SSL_HELLO 进行 
stone 的 健康 检查 


既 方 便 又 安全 地 使 用 负载 均衡 器 


负载 均衡 器 的 维护 工作 的 主要 是 “配置 虚拟 服务 器 > 和 “分 配 真实 服务 器 ”两 

种 。 这 项 工作 实际 上 就 是 修改 配置 文 人 (keepalived.conf) 。 但 是 当 网 站 或 
服务 器 数量 不 断 增 多 时 ， 将 变 得 很 难 直接 编辑 。 因 此 就 需要 建立 能 够 方 
便 安全 地 维护 配置 文件 的 机 抽 。 


14 现在 DSAS 的 keepalived.conf 有 2500 行 以 上 。 


首先 ， 忽 略 keepalived.conf 的 语法 ， 只 考虑 维护 时 需要 什么 接口 。 维 护 负载 

均衡 名 的 目的 其 实 就 是 在 真实 服务 器 上 对 虚拟 服务 器 进行 增加 、 缩 减 或 改 
变 分 配 资源 等 工作 。 为 了 恰当 地 进行 分 配 管理 ， 必 须 能 够 直观 地 掌握 目前 

具体 哪个 网 站 必 > 配 到 了 哪 一 个 真实 服务 器 。 为 此 ， 这 里 就 写 了 如 下 的 配置 

文件 。 最 左边 的 w101、w102 是 真实 服务 絮 的 主机 名 称 ， SiteA、SiteB 是 

网 站 名 称 (虚拟 服务 器 ; 。 这 个 文件 用 Klab 的 术语 来 说 就 叫 

作 “MATRIX”。 该 名 字 的 由 来 是 “因为 像 数 学 中 的 矩阵 模型 ”。 


w101: SiteA 
w102: SiteA SiteC 


w103: SiteB SiteC 
w104: SiteB SiteC 
w105: SiteB 


格式 看 起 来 很 简单 ， 但 这 里 的 格式 到 底 是 “ “网 站 名 称 : 服务 器 服务 器 ”好 
呢 ? 还 是 服务 器 网 站 名 网 站 名 ”好 呢 ? 笔者 着 实 纠 结 了 一 段 时 间 。 如果 
是 要 掌握 “4 台 哪 一 个 网 站 分 配 了 哪 一 个 服务 器 ”>， 显 然 前 者 更 容易 理解 。 但 
是 ， 实 际 上 大 多 情况 下 都 是 在 服务 器 出 现 故障 导致 配给 到 网 站 的 次 摧 源 失 
衡 ， 或 者 移 至 其 他 服务 器 时 编辑 MATRIX 的 。 例 如 当 w103 出 现 故 障 ， 需 
要 切换 至 备用 服务 器 w106 时 ， 如 果 这 是 后 者 的 情况 ， 因 为 只 需 调 换 w103 
及 w106 行 ， 所 以 只 进行 一 次 剪 切 & 粘贴 即 可 ; 但 如 果 是 前 者 的 话 ， 就 必 
须 将 字符 串 “w103” 置 换 为 “w106” 才 行 。 因 此 ， 在 MATRIX 中 表示 “哪个 服 
务 器 为 哪个 网 站 提供 支撑 ”时 采用 了 后 者 的 格式 。 


之 后 狐 似 只 需 参 照 MATRIX 的 格式 来 编写 生成 Reapalived Conf 的 脚本 束 可 
以 了 ， 但 是 因为 MATRIX 中 不 包括 有 关 虚 拟 服务 器 的 信息 ， 所 以 除 此 之 外 
还 需要 写 一 个 如 代码 清单 6.2.6 那样 的 定义 文件 。 这 里 使 用 了 YAML 格式 来 
记录 配置 虚拟 服务 器 所 需 的 参数 。DSAS 通过 自身 的 Perl 脚本 读 取 
MATRIX 和 这 个 定义 文件 ， 其 后 使 用 Template-Toolkit 就 可 以 生成 
keepalived.conf 了 。 代 码 清单 6.2.7 是 Template-Toolkit 的 模板 。 


代码 清单 6.2.6 ”虚拟 服务 器 的 定义 


PROJECT: SiteA 
SERVICE : 
- 10.0.0.1:80 


1b_algo: 
1b_kind: 
protocol: 
HEALTH_TYPE: HTTP_GET 


HTTP_GET : 
path : /health.html 
status_code: 200 
connect_port: 80 
connect_timeout: 5 


代码 清单 6.2.7 keepalived.conf 的 模板 


Virtual_server_group [% PROJECT %] { 
[% FOREACH S=SERVICE -%] 
[% S.replace(':',' ') %] 
[% END -%] 
} 
virtual_ server group [% PROJECT %] { 
1b_algo [% lb_algo %] 
lvs_method [% lb_kind %] 
protocol [% protocol %] 
[% FOREACH R=REAL -%] 
real_server [% R %] [% real port %] { 
weight 1 
inhibit_on_failure 
[% SWITCH HEALTH_TYPE -%] 
[% CASE 'HTTP_GET' -%] 
HTTP_GET { 
Url { 
path [% HTTP_GET.path %] 
status_code [% HTTP_GET.status_code %] 
} 
connect_port [% HTTP_GET .connect_port %] 
connect_timeout [% HTTP_GET .connect_timeout %] 


[% CASE 'TCP_CHECK' -%] 
TCP_CHECK { 
connect_port [% TCP_CHECK.connect_port %] 
connect_timeout [% TCP_CHECK.connect_timeout %] 


} 
[% END -%] 


} 
[% END -%] 
} 


keepalived.conf 中 必须 根据 所 分 配 的 服务 器 台数 来 描述 real_server 部 分 ， 这 
里 使 用 模块 引擎 可 以 更 加 方便 并 安全 地 生成 该 文件 。 代 码 请 单 6.2.8 就 是 自 
动 生成 的 keepalived.conf 。 


代码 清单 6.2.8 ”自动 生成 的 keepalived.con 


virtual_ server_group SiteA { 
10.0.0.1:80 


virtual_ server group SiteA { 
1b_algo lc 
lvs_method DR 
protocol TCP 
real_server 192.168.0.1 80 { 
weight 1 


inhibit_on_failure 
HTTP_GET { 
Url { 
path /health.html 
status_code 200 


connect_port 80 
connect_ timeout 5 


real_server 192.168.0.2 80 { 
weight 1 
inhibit_on_failure 
HTTP_GET { 
url { 
path /health.html 
status_code 200 


connect_port 80 
connect_timeout 5 


通过 进行 如 上 操作 ， 在 服务 器 需要 进行 分 配 调整 时 ， 只 需 编 辑 MATRIX 并 
执行 特定 脚本 就 可 以 了 ， 并 不 需要 从 庞大 的 keepalived.conf 中 找 出 变更 的 部 


分 来 手动 修改 配置 。 
处 理会 话 数据 


在 负载 分 流 环境 中 ， 鉴 于 用 户 在 浏览 不 同 页 面 时 ， 连 接 到 的 未 必 是 同一 个 
服务 右 ， 因 此 不 能 在 服务 万 本 地 文件 里 保存 会 话 数据 ， 而 必须 保存 在 类 似 
数据 库 和 NFS 那样 的 云端 上 ， 这 样 才能 保证 Web 服务 右 可 以 获取 到 相应 的 
人 资源， 但 是 由 于 数据 库 和 NFS 在 访问 集中 时 容易 成 为 瓶颈 ， 因 此 不 适合 用 
来 保存 频 蚂 更 新 的 会 话 数 据 。 


关于 会 话 数 据 的 处 理 ， 下 面 将 对 “memcached” 和 “repcached” 进 行 说 明 。 


memcached 


我 们 最 初 将 高 速 缓存 服务 器 的 “memcached” 作 为 会 话 存 储 (Session 
Storage) 来 使 用 ， 但 是 因为 memcached 没有 复制 同步 等 功能 ， 无 法 备份 会 
话 内 容 ， 因 为 一 旦 丢失 会 话 数 据 (通常 为 会 员 登 录 或 退出 时 的 会 话 信 

息 ) ， 就 会 为 在 线 的 会 员 带 来 困扰 。 


另外 ， 会 话 数 据 一 旦 丢失 ， 势 必 会 对 用 户 产 生 一 些 影响 。 例 如 ， 用 户 在 进 
入 下 一 页 面 时 突然 返回 到 主页 ， 或 者 丢失 所 输入 的 数据 等 。 为 此 ， 除 了 使 
用 memcached 以 外 ， 还 在 NFS 服务 器 上 使 用 RamDisk 工具 优化 了 

DRBD， 这 样 就 可 以 在 重视 性 能 的 情况 下 选择 memcached， 在 重视 安全 性 的 
情况 下 选择 RamDisk。 类 似 上 述 这 样 ， 可 以 根据 目前 生产 环境 的 情况 来 选 
择 合适 的 会 话 存储 方式 。 


但 是 ， 对 Web 应 用 程序 来 说 ， 实 现 会 话 存储 的 切换 会 很 麻烦 ， 结 果 大 多 数 
情况 下 都 只 使 用 了 通过 DRBD 元 余 处 理 后 的 RamDisk。 虽 说 这 里 已 经 使 用 
了 RamDisk 优化 ， 但 终究 还 是 NFS 服务 器 ， 为 了 消除 已 经 过 期 的 会 话 数 
据 ， 必 须 定 期 运行 垃圾 收集 器 (Garbage Collector) 等 ， 另 外 访问 集中 时 还 
容易 造成 瓶颈 的 出 现 。 


repcached 


memcached 在 性 能 和 便利 性 方面 非常 出 色 。 由 于 没有 复制 功能 而 无 法 使 
用 ， 实 在 是 有 些 可 惜 ， 于 是 便 开 发 了 为 memcached 添加 复制 功能 的 


repcached 5 。 


5 关于 repcached 的 详情 ， 请 参考 如 下 链接 。 
URL http://book.51cto.com/art/201202/314930.htm 


repcached 的 运行 情况 如 图 6.2.9 所 示 ， 两 台 服 务 需 为 一 组 ， 双 癌 同 步 数据 。 
人 都 能 保存 到 双方 的 服务 需 


repcached repcached 


复制 


SETGET 


SET/GET 


图 6.2.9 repcached 的 运行 情况 


如 图 6.2.10 所 示 ， 即 使 一 边 停 止 工 作 了 ， 数 据 也 能 整个 保存 下 来 ， 所 以 
人 repcached 连接 ， 即 可 像 什么 事 都 没有 发 生 
2 米 纺 o 


repcached 


DCD 


SET/GET 


图 6.2.10 ”发生 故障 时 的 行为 


运用 memcached 的 服务 器 集 群 ， 可 以 同 多 个 服务 句 进 行 负载 分 流 ， 以 及 在 
发 生 故 障 时 切换 到 备用 服务 器 ， 所 以 即使 不 投入 新 的 已 经 安装 了 repcached 
的 服务 器 ， 安 猴 有 memcached 的 服务 如 也 可 以 实现 大 部 分 的 功能 。 


6.2.4 DSAS 的 未 来 


DSAS 系统 是 以 “根据 情况 智能 地 分 配 服务 融资 源 ” 为 目标 命名 的 ， 但 在 目前 
的 DSAS 系统 中 ， 还 尚未 完全 实现 “智能 地 (Dynamic) 分 配 服务 器 资源 ”。 
如 果 只 闻 其 名 而 不 知 其 原委 ， 可 能 会 对 其 有 更 好 的 印象 ， 例 如 认为 它 是 可 
以 根据 流量 或 连接 数目 动 修改 服务 器 架构 的 系统 、 服 务 器 损坏 时 目 动 切换 
为 备用 机 的 系统 等 。 


“Dynamic" 有 时 还 可 能 会 被 理解 为 “上 自动” 的 意思 。 人 确实, “Dynamic Routing 
Protocol” 能 够 自动 改写 路 由 信息 ,，“Dynamic DNS”* 能 够 自动 配置 IP 地址。 
而 且 ，DHCP 的 首 字 母 也 是 “Dynamic”， 所 以 想必 大 家 对 “Dynamic” 这 个 词 
都 有 个 大 致 印象 。DSAS 也 将 尽 可 能 地 不 这 人 负 当 初 的 期 望 ， 努 力 做 到 名 副 其 


信 户 


头 “。 


根据 流量 的 增加 乔 能 分 配 服 务 右 资源 古 个 很 有 趣 的 课题 ， 而 且 当 服务 器 出 
现 故 障 时 目 动 搭建 其 他 服务 器 的 元 余 结构 也 不 是 说 不 可 能 实现 。 这 样 想 着 
想 厦 ， 慢 慢 地 束 可 能 有 些 异 想 天 开 了 “。 但 是 不 要 总 说 这 不 可 能 ， 而 征 要 认 
真 考虑 怎样 才能 实现 ， 即 使 是 半 开 玩笑 也 可 以 。 在 努力 思考 的 过 程 中 就 会 
产生 一 些 想法 ， 而 这 些 想 法 在 某 些 状况 下 很 可 能 就 会 发 挥 作 用 。 虽 然 无 法 
想象 未 来 会 如 何 发 展 ， 只 和 希望 能 以 “不 断 优 化 的 智能 系统 ?为 目标 而 努力 进 


步 ® 


看 完了 


如 果 您 对 本 书 内 容 有 疑问 ， 可 发 邮件 至 contact@turingbook.com， 会 有 编辑 
或 作 译 者 协助 答疑 。 也 可 访问 图 灵 社 区 ， 参 与 本 书 讨 论 。 
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